- Advertisement -
首頁 標籤 3D堆疊

3D堆疊

- Advertisment -

異質整合持續發酵 先進封裝進入黃金年代

2019年整個IC封裝市場總價值為680億美元。而Yole在其新發佈的2020年版《先進封裝產業態勢》報告中稱,2019年的先進封裝產業總價值為290億美元,從2019年至2025年期間預期將以6.6%的複合年增率(CAGR)增長,在2025年達到420億美元。摩爾定律的放緩、異質整合和各種大趨勢(包括 5G、AI、HPC、物聯網等)推動著先進封裝市場強勢發展,因此先進封裝在整個半導體市場中所占的份額正在持續增加。根據Yole的報告,到2025年時,先進封裝占整體封裝市場的比重將接近50%。 與此同時,傳統封裝市場和整個封裝市場從2019年至2025年期間將分別以1.9%和4%的CAGR增長,在2025年分別達到430億美元和850億美元。不過,由於新冠疫情的影響,全球先進封裝市場規模在2020年將下降7%,而傳統封裝市場將縮水15%。 3D堆疊平台營收的成長速度,將會是各種先進封裝之最,其2019年至2025年間的 CAGR可達21%。緊隨其後的是嵌入晶片和扇出型技術,同一時期內的CAGR分別為18%和15.9%。因此產量高的產品將進一步滲透市場:扇出型技術進入移動設備、網路和汽車領域;3D堆疊技術進入AI/ML、HPC、資料中心、影線感測器、MEMS/感測器領域;以及嵌入式晶片進入行動設備、汽車和基地台領域。 就細分市場而言,移動設備和消費構成了2019年先進封裝市場總值的85%。Yole預測其在2019年至2025年間將以5.5%的CAGR增長,截至2025年將占到產生先進封裝收益的80%。 從營收來看,電信和基礎設施是高級封裝市場中增長最快的細分市場(增速約為13%),其市場份額將從2019年的10%增至2025年的14%。汽車與運輸細分市場在2019年至2025年期間將以10.6%的CAGR增長,到2025年達到約19億美元,但其在先進封裝市場中所占的份額仍將持平,達到約4%。  
0

緩解資料移動/存取瓶頸 HBM大幅加速AI應用

本文將以賽靈思(Xilinx)旗下解決方案為例,透過深度學習和資料庫加速的案例,闡述一個均衡且支援三星HBM2的賽靈思運算加速器系統,如何提供具備最佳靈活性、效率和效能的高效運算加速解決方案。 近年異質運算逐漸興起,拓寬了後摩爾定律時代在加速運算密集型作業負載的創新。在當前資料中心產業中,普遍採用異質運算進行加速的作業負載種類繁多,包含人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一小部分。 然而,長期以來,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年裡,並行記憶體介面的頻寬效能雖有改善但進展緩慢;現今FPGA所支援的最大DDR4資料速率仍然只有2008年DDR3的2倍左右。相比之下,自2008年以來,FPGA的運算能力已提高了近8倍,且隨著配有AI核心的Versal元件推出後,預計未來兩年內還有更大的成長空間。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型作業負載發展的主要限制因素(圖1)。 圖1 運算容量的提升與DDR頻寬的改善比較 HBM效能/傳輸更高更快 HBM是一種高速的系統級封裝(SiP)記憶體技術,與採用傳統打線接合封裝(Wire Bonding-based Package)的記憶體產品相比,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,來達到更大的儲存容量與更高的資料頻寬。聯合電子裝置技術協會(JEDEC)在2013年開始採用初代HBM標準,並在2016年1月批准第二代HBM2版本為業界標準。 HBM2標準支援4個或8個8Gb的DRAM晶粒逐個堆疊在一起,由一個2.5D矽「中介層」提供支援,該「中介層」可將記憶體堆疊與底層電路板連接起來。堆疊一些晶粒(通常是記憶體)而不是其他晶粒(通常是處理器)的多晶片封裝被稱為2.5D元件(圖2)。 圖2 HBM和2.5D架構 由於多個堆疊能被添加在同一個封裝中,因此與傳統的多晶片DRAM產品相比,當堆疊多個晶粒在一個電路板上並將其堆疊得更緊密時,可以大幅減少HBM記憶體封裝的水平占板面積。此外,HBM技術還縮短了訊號在元件之間的傳輸距離,因此可以提高系統效能,且較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。 圖3 HBM晶粒堆疊技術 HBM具備先進的TSV技術、微尺度互連和突破極限的I/O數量,可以增加記憶體頻寬,與其最強勁的競爭對手,也就是用於繪圖卡的繪圖用雙倍資料傳輸率(GDDR)記憶體相比,HBM明顯能提供更高的效能。在元件級別,單個三星HBM立方體可以提供高達307GB/s的資料頻寬,比GDDR5晶片高出近10倍的資料傳輸率。而在系統級別,與採用GDDR的解決方案相比,HBM能提供近3倍的輸送量,並使用少於80%的功耗,同時還可以節省寶貴的電路空間(圖4)。 圖4 HBM與GDDR頻寬比較 FPGA元件助力 記憶體頻寬再上層樓 以下將以賽靈思旗下FPGA產品為例,該公司支援HBM的Virtex UltraScale+ FPGA大幅改善了記憶體頻寬,例如2個三星HBM2記憶體堆疊就可提供高達460GB/s的速率。當將1或2個HBM2堆疊與各種尺寸的FPGA邏輯(多達285萬個邏輯單元)和DSP(高達9,024個DSP48E2分割,可提供28.1峰值INT8 TOP)進行配對時,使用者就可以選擇搭配全新支援HBM的UltraScale+元件系列,為其應用選擇最佳的運算能力與記憶體頻寬/容量組合。 另一方面,除了支援HBM的Virtex UltraScale+FPGA,賽靈思還推出Alveo U280資料中心加速器卡,由16奈米UltraScale+架構所打造,採用8GB三星HBM2,可為資料庫搜尋與分析、機器學習推論及其他記憶體限制應用提供更高等級的加速功能;並涵蓋了CCIX支援,可以利用現有的伺服器互聯基礎設施和即將推出的CCIX處理器,提供高頻寬、低延遲的快取一致性共用記憶體存取。許多受限於記憶體的應用都能受益於支援HBM的UltraScale+元件,本文將以深度神經網路與資料庫加速方面的案例為例,展示支援HBM的UltraScale+元件之優勢。 強化記憶體頻寬提升AI語言翻譯效能 如今,各種雲端應用都有提供自動即時語言翻譯服務,其可透過採用神經網路的機器學習方法在兩種語言之間翻譯語句(稱為機器翻譯),編碼器-解碼器架構強化當今的商業自動化翻譯服務。 在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以透過向量進行量化建模和反映。遞迴神經網路、卷積神經網路和基於注意力的模型等架構通常用於執行編碼和解碼功能。 近期研究表示,在語言翻譯中,只有採用注意力的網路能達到最高的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)所構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成,該結構與前饋網路被共同用於建構整個語言翻譯模型的解碼器和編碼器(圖5)。 圖5 轉換器--基於注意力神經網路的語言翻譯模型 如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積運算。這些點積通常被組合到矩陣乘法運算,以達到更高效的運算。然而,與在整個空間中大量重複使用權重參數以減少資料移動痕跡的傳統卷積神經網路不同,這類基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法運算的記憶體頻寬要求要高出許多。 我們建置了一個用於語言翻譯且基於注意力的先進神經網路的轉換器分析模型,並將其映射在UltraScale+元件上運行。FPGA建置方案的架構採用DSP脈動陣列來執行矩陣乘法,中間的啟動資料儲存在晶載URAM中,可以消除啟動時所造成在處理器和外接記憶體之間頻繁進行的資料移動。HBM或DDR則用於儲存所有嵌入字典的單詞嵌入與權重參數。 針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批量大小(B),對其進行分析就可以瞭解附加DDR的UltraScale+元件和支援HBM的UltraScale+元件對於延遲和傳輸量之間的權衡。這一研究對於DDR與HBM的建置,假設使用具有256個16位元輸入和32個16位元輸出的脈動陣列,並將其運行在710MHZ的UltraScale+元件上。詳細的傳輸量與延遲關係圖請見圖6。 圖6 採用具有HBM和DDR4的UltraScale+元件進行語言翻譯效能分析。 長度為8的句子在4條通道上運行的最低延遲約為15.7ms,傳輸量為508符號/秒。一條DDR通道用於存取單詞嵌入資料,其餘三條DDR通道用於載入權重。對於支援HBM的元件而言,一個長度為8的句子之最小延遲為2.2ms,比DDR介面低7倍以上。DDR介面在兩種句子長度上都不能達到7ms以下的延遲,但是支援HBM的元件在傳輸量為10,419符號/秒,且句子長度為8的情況下可達到6.1ms的延遲,在輸送量為4,682符號/秒,且句子長度為16的情況下可達到6.8ms的延遲。 借助通用矩陣運算資料庫加速AI應用 與前面討論的機器翻譯案例一樣,幾乎所有現代深層神經網路(深度學習)的主要運算都是以矩陣乘法的形式來完成。除了機器翻譯以外,在資料中心廣泛部署的其他典型深度學習應用有影像/視訊分析、網路搜尋的搜尋排名系統、廣告投放的推薦系統、內容/來源推薦、語音辨識以及自然語言處理。 為了更佳地支援更多的深度學習應用,賽靈思開發了通用矩陣運算(GEMX)資料庫,用於加速元件上的矩陣運算,該元件由SDAccel開發環境提供支援。該資料庫包括三個組件:引擎庫、主機代碼編譯器與以應用或系統建構的環境,引擎庫則由一組具有BLAS函數介面的C++範本組成,可以在FPGA上進行矩陣運算。 主機代碼編譯器將主機代碼矩陣函式呼叫編譯成一系列指令,用於觸發FPGA上的矩陣運算,建構環境採用GNU make流將FPGA和主機代碼影像生成過程自動化。此外,該產品還支援使用者對系統的各個方面進行配置,例如,FPGA平台、FPGA影像中建置的引擎數量等。 雖然GEMX引擎的兩個輸入矩陣都來自DDR記憶體,但GEMX的傳輸量取決於DDR介面的頻寬。圖7的分析比較了使用DDR4連接UltraScale+元件的GEMX與使用支援HBM的UltraScale+元件的GEMX之效能。該分析模型充分利用了記憶體頻寬,並假設使用32×32×128的矩陣作為GEMX的輸入。結果如圖7所示,與使用4條DDR通道相比,支援HBM的元件可以將GEMX的效能提升約3.6倍。 圖7 GEMX效能 HBM讓記憶體存取/使用更有效 受益於HBM記憶體控制器中的靈活定址方式,支援HBM的UltraScale+元件具備的獨特優勢之一就是HBM通道的靈活並行使用。HBM通道的存取與使用,是能夠完全地被可重配置和重新編程,還可以通過FPGA邏輯輕鬆存取。 如圖8所示,使用者可以將原始資料庫檔案剝離到多個HBM通道中,並讓並行處理運算單元執行不同的資料庫操作,以獨立並行存取資料庫的不同部分而無需進行同步。這一特性有助於改善即時案例中的操作延遲並有效地使用HBM,因為所有運算單元都可以即時回應資料庫查詢,毋須批次處理或同步。在上述機器翻譯案例中,該特性還用於分離兩個通道進行單詞嵌入存取,而其餘通道則用於高頻寬權重參數傳輸。 圖8 靈活的並行記憶體通道存取 雖然三星HBM在AI和資料庫加速等案例中的重要性已得到證實,但還有很多其他的資料中心作業負載也可從HBM中顯著獲益。總而言之,在資料中心領域,隨著異質運算加速的發展趨勢以及運算設備技術的創新,迫切需要在運算單元附近附加像HBM這樣的高效能記憶體系統;而支援HBM的UltraScale+元件具有獨特的價值,以深度學習和資料庫加速為例,賽靈思支援HBM的UltraScale+元件就發揮出運算加速的新潛力,並將其引領至更高的水準。 (本文由賽靈思提供)
0

成本/效能需求不同 異質整合走向分眾化

車聯網、5G等應用相繼興起,且皆須使用到高速運算、高速傳輸、低延遲、低耗能的先進功能晶片,在製程微縮技術只有少數幾家晶圓代工、IC製造業者可發展的情況下,異質整合(Heterogeneous Integration Design Architecture System, HIDAS)成為IC晶片的創新動能。而隨著應用市場更加多元,每項產品的成本、性能和目標族群都不一樣,因此所需的異質整合技術也不全然相同,有的需要記憶體+邏輯晶片,而有的則需感測器+記憶體+邏輯晶片等,市場分眾化趨勢逐漸浮現。 工研院電子與光電系統研究所所長吳志毅表示,所謂的異質整合,廣義而言,就是將兩種不同的晶片,例如記憶體+邏輯晶片、光電+電子元件等,透過封裝、3D堆疊等技術整合在一起。簡而言之,將兩種不同製程、不同性質的晶片整合在一起,都可稱為是異質整合。 異質整合是目前半導體產業熱門議題,也有許多業者投入發展,進而市場上有著許多解決方案。對此,吳志毅說明,在異質整合發展上,各家廠商著重的市場和技術都不一樣,因而會衍生出許多種整合方式,例如有所謂的2.5D、3D或是採用封裝的方式。然而,不論是何種技術,其核心價值都是將兩種完全不同的晶片整合成一個,這便是異質整合的概念;換個例子來說,要將兩樣物品黏在一起,可以選擇膠水、膠帶或強力膠等,有很多種方式。異質整合便是同樣的道理,端看業者的市場和成本考量人選擇要用何種整合技術。 吳志毅補充,半導體技術著重的永遠都是Cost和效能。部分業者之所以會發展3D整合方案,主要原因是3D IC一定具有最好的效能,但相對的3D IC的成本也最高,因此適用於高端產品市場,例如AI晶面。至於原有的2.5D的整合技術,並非3D IC出來之後就沒有市場,2.5D IC的性能雖然不比3D IC,但相對的其成本也較低,適用於有著成本考量的企業或產品。換個方式譬喻,當7奈米製程出現後,不意味著所有產品都會轉成7奈米,像是14、16、28奈米,甚至是90奈米,都還有其市場,業者會依其應用市場、產品設計需求和成本,選擇所需的製程技術,而異質整合也是同樣,業者根據所需的產品性價比、效能以及市場選擇所需的整合技術,也因此,未來異質整合勢將會出現市場分眾化的趨勢。 吳志毅認為,這對於晶圓代工廠、或是晶片商等也是一個新的機會。現今半導體產業只剩三家業者(台積電、三星、英特爾)能繼續進行摩爾定律(製程微縮化),而其他業者如聯電、格芯是否就沒有其他發展空間?並非如此,異質整合便是一個新的機會。這些晶圓代工、IC設計或封裝業者不一定要發展更先進的製程,但是卻可以透過異質整合,將原本不同性質的晶片整合成體積小、高性能的晶片,實現更多創新應用。 工研院電光所所長吳志毅認為異質整合市場未來將走向分眾化。  
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -