- Advertisement -
首頁 標籤 Interposer

Interposer

- Advertisment -

異質整合大行其道 Chiplet再造半導體產業鏈

半導體技術發展越來越成熟,但追求效能提升的腳步卻從來沒有稍停,半導體晶片整合技術進入異質整合(Heterogeneous Integration)世代,各種晶片電路設計與封裝層級的整合技術希望能延續摩爾定律的規律,加上人工智慧(AI)、5G與高效能運算(HPC)等應用對於半導體效能提升的需求,也持續推動晶片技術的改善,近期在小晶片(Chiplet)設計架構的發展之下,也帶動新一波的晶片整合技術發展。 Chiplet並不是全新的IC設計概念,過去系統單晶片(System on Chip, SoC)與系統級封裝(System in Package, SiP)都與小晶片概念有關,隨著半導體製程的發展,電路微縮的代價越來越高,如果要將一個SoC裡面的所有電路都用相同製程或相同材料進行整合,「卡關」的可能性也會提高,可能在良率或成本上付出重大代價。Chiplet的彈性架構,整合不同製程或不同材料的裸晶(Die)電路,再透過更有效率的封裝技術,不僅避開製程瓶頸,也可以在效能與成本上取得最佳解,帶動IC設計、製造、封測廠商的全面投入。 新興應用推動半導體異質整合發展 儘管異質整合技術已經問世多年,但是該技術的應用在過去兩年中急速成長,以滿足功能更加複雜和功耗不斷降低的需求,KLA資深行銷總監Stephen Hiebert表示,異質整合允許IC製造商在單個封裝中堆疊更多的裸晶,以提高電晶體的密度,將各種不同技術和功能的晶片組合在一起,可以實現強大的功能,這些變化影響了封裝的最終設計和封裝內部的晶片組裝,其中包括2.5D和3D晶片堆疊以及扇出型封裝等技術。 另外,幾種異質整合平台例如高密度扇出型封裝、矽中介層(Interposer)和直接接合解決方案,在消費性和入門級應用中都越來越受歡迎。科林研發(Lam Research)Managing Director Manish Ranjan(圖1)表示,隨著功能要求和外形因素的增加,高階封裝解決方案在支援下一代消費性裝置方面發揮重要作用,對諸如AI和ML這類新興應用程式的性能要求,亦推動對提高記憶體頻寬和增加使用高頻寬記憶體的需求,預計在未來幾年內,晶片的發展將更強調低功耗、增加製造靈活性以及加速上市時間。 圖1 Lam Research Managing Director Manish Ranjan Chiplet的影響不僅在晶片設計方面,工研院資通所所長闕志克(圖2)坦言,小晶片的發展將影響半導體的產業生態,過去IC設計業者發展一個完整的產品,除了自身專長的IP之外,要透過IP授權導入其他功能性的電路,所以在晶片設計階段需要支付一次性工程費用(Non-recurring Engineering, NRE),投片量產後又需要依出貨量支付授權金(Royalty)等兩筆費用。Chiplet則是直接買製造好的裸晶,所以少了NRE或授權費(License Fee)這種早期開發成本,有助於小型IC設計公司的生存。 圖2 工研院資通所所長闕志克 Chiplet解構並重組半導體產業鏈 ISSCC一直以來都是積體電路新技術的指標,2020年有多篇論文都以Chiplet為討論主題,其話題性可見一斑。Chiplet有兩項關鍵問題需要解決,一是如何將各個小晶片連接起來,透過封裝技術將不同製程甚至不同材料的裸晶連接;另一個則是如何去劃分、定義這些小晶片的功能、介面、互聯協定等。Chiplet需要解決的挑戰包括:生態系統成熟度、技術和架構劃分、晶片介面、可測試性、3D CAD流程等。 Chiplet為什麼重要?透過將曾經整合的晶片分成獨立的功能區塊,讓廠商解構並重新思考如何從晶片架構的重組提升效能,以AMD的設計為例,I/O模組和DRAM通道使用格羅方德(GLOBALFOUNDRIES)的14nm製程,而包含CPU核心邏輯電路和L3高速暫存,則採用台積電的7nm或更先進的製程。在7nm之前,Chiplet的價值不高,因為保持整個晶片的統一性比將其拆分更有價值,進入先進製程之後,邏輯電路可以持續微縮,除了提高電晶體集積度之外,也可以降低功耗,但I/O模組使用14nm則可能最具成本與效能優勢。 ISSCC 2020的Chiplet研究從單純的封裝技術、介面電路逐漸開始從製程到架構優化設計研究發展,代表Chiplet技術已經逐漸成熟。闕志克認為,Chiplet對半導體產業更廣泛的意義在於,半導體現有產業鏈將因此產生解構與重組,更多小型IC設計公司有能力投入產業,晶圓廠或可以屯貨、交易的中間商將創造新價值。對於IC設計公司而言,Chiplet提供更多在製程微縮之外,嘗試新材料和製程的組合,以提升晶片效能或電源效率。 台灣半導體產業投入Chiplet有勝算 台灣有許多中小型IC設計公司,闕志克說,先進半導體製程帶來的高成本,對於規模不大的IC設計廠商造成強大的成本負擔,因此TSMC的先進製程產能長期已來都以服務大型晶片公司為主;透過Chiplet IC設計公司可以更專注在自己專長的IP,將這部分電路設計到最好,並交易需要的功能裸晶,有實際出貨再支付相關費用,投片成本大幅降低,更有機會使用先進製程,有助於中小型或新創IC設計公司的發展。 台灣半導體產業鏈本來就很完整,垂直分工的模式也很適合Chiplet的發展,闕志克表示,目前的產業結構還需要做些調整,但相對各國的半導體產業現況,台灣發展Chiplet最有條件,也更容易成功。SoC與Chiplet的重點一樣都是整合,不一樣的是SoC是在電路層面進行整合,Chiplet則將整合工作移到封裝階段,所以封測廠的角色將越來越重要。 隨著封裝內的晶片數量不斷增加,封裝的整體價值也隨之提高,Know...
0

AI異構運算工作負載有解 HBM/運算加速相得益彰

近年來,異構運算(Heterogeneous Computing)逐漸興起,進而拓展了後摩爾定律時代在加速運算密集型工作負載方面的創新。當前資料中心產業中,普遍採用異構運算進行加速的工作負載種類繁多,包括人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一部分。FPGA元件則為現代資料中心工作負載提供了靈活應變能力和運算加速能力。 然而,在很長的一段時間內,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年中,雖然平行記憶體介面的頻寬性能得到改善,但進展依然緩慢;現在的FPGA支援的最大DDR4資料速率仍然只有2008年DDR3的兩倍左右。相比之下,自2008年以來,FPGA的運算能力卻提高了近八倍,而且隨著配備AI運算單元的元件推出,預計未來兩年內還會有更大的成長空間(圖1)。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型工作負載發展的主要限制因素。 圖1 FPGA運算性能成長與DDR頻寬提升比較   HBM2提升AI運算效能 HBM(High Bandwidth Memory)是一種高速的系統級封裝(SiP)記憶體技術,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,與採用傳統打線接合封裝的記憶體產品相比,可實現更大的儲存容量和更高的資料頻寬。聯合電子裝置工程委員會(Joint Electron Device Engineering Council, JEDEC)在2013年開始啟用初代HBM標準,2016年1月,第二代HBM2版本成為業界標準(圖2)。 圖2 HBM和2.5D結構 HBM2標準支援4個或8個8Gb DRAM裸晶逐個堆疊在一起,由一個2.5D矽中介層(Interposer)提供支援,該中介層可將記憶體堆疊與底層電路板連接起來。堆疊一些裸晶(通常是記憶體)而不是其他裸晶(通常是處理器)的多晶片封裝被稱為2.5D元件。 可以將多個堆疊整合在同一個封裝中。與傳統的多晶片DRAM產品相比,透過在一個電路板上堆疊多個裸晶並將其堆疊得更緊密,可以大大減少HBM記憶體封裝的占板面積。由於縮短了訊號在設備之間的傳輸距離,HBM技術還可以提高系統性能。此外,較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。 圖3 HBM裸晶堆疊技術 HBM具備先進的矽穿孔(Through Silicon Via, TSV)技術、微尺度互聯和突破極限的I/O數量,可以增加記憶體頻寬,與競爭對手相比,在用於繪圖卡的圖形雙數據速率(GDDR)記憶體方面,HBM無疑能提供更高性能。在元件級別,單個三星HBM堆疊可以提供高達307GB/s的資料頻寬,實現比GDDR5晶片快近10倍的資料傳輸速度。而在系統級別,與使用於GDDR的解決方案相比,HBM則能提供近3倍的輸送量,並且能將功耗降低80%,同時還可以節省寶貴的電路空間(圖4)。 圖4 HBM與GDDR頻寬比較 支援HBM的Virtex UltraScale+ FPGA提高了記憶體頻寬,例如,兩個三星HBM2記憶體堆疊可提供高達460GB/s的速度。將一個或兩個HBM2堆疊與各種尺寸的FPGA邏輯和DSP進行配對,為使用者應用選擇較佳的運算能力與記憶體頻寬/容量組合。如賽靈思(Xilinx) Alveo U280網路加速卡基於16nm UltraScale+架構,採用8GB三星HBM2,可為資料庫搜索與分析、機器學習推論及其他記憶體限制應用提供較高等級的加速功能。本文以深度神經網路與資料庫加速方面的研究為例,展示了支援HBM的元件優勢。 加速語言翻譯準確性 各種雲端應用正在提供自動即時語言翻譯服務,這種服務可以使用基於神經網路的機器學習方法在兩種語言之間翻譯語句。編碼器-解碼器架構推動了當今的商業自動化翻譯服務。在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以通過向量進行量化建模和反映。遞迴神經網路(Recurrent Neural Networks, RNN)、卷積神經網路(Convolution Neural Network, CNN)和基於注意力的模型等結構通常用於執行編碼和解碼功能。 近期研究表明,在語言翻譯中,只有採用基於注意力的網路才能達到業界一流的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成。該結構與前饋網路共同用於構建整個語言翻譯模型的解碼器和編碼器(圖5)。 圖5 基於注意力的神經網路語言翻譯模型 如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積計算。這些點積通常被組合到矩陣乘法計算,以實現更高效的運算。然而,與傳統在整個空間中大量重複使用權重參數以減少資料移動痕跡的卷積神經網路不同,這種基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法計算的記憶體頻寬要求要高得多。 透過建立一個轉換器分析模型,其是用於語言翻譯的注意力神經網路,並且已經完成了構建與映射以便在UltraScale+元件上實現。FPGA實現方案的架構採用DSP脈動陣列來執行矩陣乘法。中間的啟動資料儲存在晶片的URAM中,可以消除啟動造成處理器和晶片外記憶體之間的資料移動。HBM或DDR用於儲存所有嵌入字典的單詞嵌入與權重參數。 針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批次處理大小(B),對其進行分析就可以瞭解附加DDR的元件和支援HBM的元件的時間延遲(Time...
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -