TSV
Chiplet蔚為風潮 設計/模擬工具競提配套
在摩爾定律越來越難繼續向前推進的情況下,將一顆SoC切割成多顆Chiplet,再藉由先進封裝技術完成整合,以便在晶片面積、生產良率與效能之間取得更好的平衡,已經成為許多高階晶片所採用的做法。諸如英特爾(Intel)、賽靈思(Xilinx)與聯發科,都已經在自家產品線上導入了Chiplet的設計理念,使得Chiplet成為半導體業內一個備受矚目的議題。
英特爾架構日展示技術火力 Chiplet概念運用日廣
日前英特爾在暌違18個月後,再次舉行架構日(Architecture Day)活動,除了一口氣更新其處理器、獨立繪圖晶片與FPGA等產品的發展路線圖外,同時也在先進封裝跟Chiplet上面有許多著墨。
英特爾資深首席工程師Ramune Nagisetty表示,該公司所發明的EMIB跟Foveros技術,已經應用在許多晶片產品上,在此基礎上,英特爾將以繼續縮小封裝的Bump Pitch、提高Bump密度為目標,讓先進封裝得以支援更多I/O。目前EMIB與Foveros的Bump Pitch分別可達55~36微米及50~25微米,未來的目標是要將Bump Pitch縮小到10微米以下。混合接合技術將是實現此一目標的關鍵技術,目前英特爾已經完成該技術的試產。
而為了實現更複雜的封裝,滿足未來Chiplet的需要,英特爾的封裝團隊正在發展Co-EMIB與Omni-Directional Interconnect(ODI)等新的封裝技術。Co-EMIB(圖1)是一種混合了2D封裝與3D封裝的技術,利用EMIB將多個已經完成堆疊封裝的晶片模組串接起來,再安置於同一個基板上,這會使英特爾得以實現更大型、更複雜的多晶片模組整合,而且也讓晶片設計人員可以更自由地將晶片切割成Chiplet,提高設計的靈活性,亦有助於加快產品上市跟提高良率。
圖1 Co-EMIB封裝
ODI(圖2)也是一種有助於提高設計自由度的封裝技術,也可以視為TSV概念的變形運用。TSV是以晶片上的垂直穿孔作為互聯的通道,因此隨著TSV的數量增加,晶片設計人員必須預留更多晶片面積給這些穿孔,其實是相當大的浪費。而且在進行3D堆疊時,面積比較大的晶片一定要在下層,否則整個堆疊的結構容易不穩定。ODI則是反其道而行,藉由在晶片外面的金屬柱來實現晶片與基板的互聯,這不僅可以節省TSV占用的空間,同時也可以實現上大下小的堆疊結構,讓封裝設計者有更多的彈性。
圖2 ODI封裝
此外,因為金屬柱直接與基板互聯,因此基板可以透過金屬柱直接對上層晶片供電,或在基板與晶片間,搭建起頻寬更高的互聯線路,這些優勢都可以讓封裝設計者有更多揮灑創意的空間。
不管是Co-EMIB或ODI,其實都是在為日後Chiplet的整合需求預做準備。隨著先進製程的線寬越來越細,很多晶片已經不適合再使用最先進的製程製造,這已經是不爭的事實,例如記憶體、類比、射頻晶片所使用的電晶體,跟邏輯晶片的電晶體,在結構跟尺寸上就有很大的差異,與其硬要把不同種類的電晶體實作在同一顆晶片上,不如各自用最適合的製程技術分開生產,形成所謂的Chiplet,再藉由先進封裝技術把Chiplet整合在同一個封裝內。
要實現Chiplet,需要有兩根支柱,其一是實現實體互連的各種先進封裝技術,另一個則是Chiplet互聯的介面標準。在介面標準方面,英特爾正在大力推廣先進介面匯流排(AIB)標準(圖3),希望讓Die與Die之間的介面得以標準化。Nagisetty表示,介面的標準化是非常關鍵的,在幾十年前,英特爾與其他合作夥伴,共同把PC主機板上的各種介面標準化,例如連接記憶體的DDR、連接GPU或其他周邊的PCI/PCIe,才創造出今天的PC生態系統。同樣的,Chiplet要普及,介面標準化的工作也是不可或缺的。
圖3 AIB 1.0與AIB 2.0標準比較
在Chiplet介面標準化方面,英特爾已加入CHIPS聯盟(CHIPS Aliance),並將AIB標準與聯盟成員分享。此一標準目前已進展到2.0版,並且是完全開放、免權利金的標準,相關說明文件與AIB產生器等工具,都可以在Github上下載。
Chiplet後勢看好 封裝設計面對巨大挑戰
安矽思(Ansys)資深技術經理魏培森(圖4)指出,封裝技術的進步,是Chiplet能從概念轉化成實際產品的關鍵。封裝產業從很多年前就已經發展出多晶片模組封裝(MCM)與系統級封裝(System in Package, SiP)技術,但受限於基板材料特性及PCB製程的線寬/間距(L/S)限制,能在單一封裝中整合的晶片數量較為受限。
圖4 安矽思資深技術經理魏培森
矽基板跟高分子聚合物薄膜這類新材料的應用,以及隨之引入的半導體級線路製程,打破了傳統PCB基板對封裝設計所造成的限制,讓工程師得以在單一封裝內整合更多晶片。也因為後段封裝有了更進步的技術跟材料,讓前段晶片設計者開始思考將SoC設計化整為零,打散成多顆小晶片的可行性,進而形成今日備受業界關注的Chiplet概念。
但對後段封裝設計者來說,Chiplet概念的流行,將會使很多本來應該要由前段承擔的設計整合作業,變成後段封裝設計要承擔。而後段封裝設計者本來就有自己要面對的挑戰,例如採用矽中介層(Interposer)雖可讓連線密度大幅提高,但Interposer是很脆的材料,在晶片運作過程中,如何避免熱漲冷縮所產生的應力損壞Interposer,是封裝設計工程師所需要面對的棘手難題。像InFO這類以高分子材料做為重分布層(RDL)也有不小的挑戰,因為這種材料是軟的,很容易遇到邊緣翹曲這類問題。
簡言之,機械結構與可靠度的問題,是封裝設計工程師所面對的獨特挑戰,對於這方面的設計模擬作業,Ansys提供的解決方案包含Redhawk、Mechanical、Sherlock等結構模擬工具。也因為Ansys在這方面有相對完整的產品線,在封裝設計領域,Ansys的客戶群遍及全球各大OSAT廠與IC設計公司的封裝團隊。
但由於先進製程面對的技術挑戰越來越難以跨越,IC設計走向Chiplet將是必然的結果,因此可以預見的是,從事IC封裝設計的團隊,會遇到越來越多跟電性問題有關的挑戰,例如PI、SI。其實,目前從事先進封裝設計的團隊,就已經得設法處理PI、SI的問題,而隨著先進封裝要承擔更多功能整合的責任,日後封裝團隊要解決的電性問題肯定只增不減。這又帶出另一個問題,如何讓機電(機構+電性)的設計流程能更緊密地銜接起來?
魏培森觀察,許多封裝設計團隊跟OSAT業者,正在積極發展專屬自己的客製化設計流程,一方面加快封裝設計的速度,另一方面也想藉此跟同業做更大的差異化。這點從Ansys為客戶舉辦的教育訓練課程出席率幾乎都是100%,就能看出端倪。因為封裝設計團隊如果要發展自己的客製化流程,工程師本身一定要是相關模擬工具的Power User,才能利用這些工具建立起自己的客製化流程。
因應Chiplet時代 設計環節不宜各自為政
針對Chiplet的前後段設計整合,益華電腦(Cadence)產品技術處長孫自君(圖5)開門見山地說,每個環節各自為政的時代已經結束了,從最前段的IC設計到中間的封裝設計,乃至PCB層級的系統整,以後一定會朝共同設計(Co-design)的方向發展。但這對電子產業來說,會是一個相當艱鉅的挑戰,因為歷經數十年發展,不同設計環節所使用的工具已經高度特化,同時也形成難以打破的高牆,要讓前後段流程平順地串接,是非常困難的事情。
圖5 益華電腦產品技術處長孫自君
以IC設計為例,EDA工具產出的標準檔案格式是GDSII,這是專門為IC設計的需求而設計的檔案格式,以提供幾何(Geometry)資訊為主,沒有太多跟電性有關的資訊,但IC設計簽核(Sign-off)正好相反,EMC/EMI/PI/SI模擬的目的,就是為了確定晶片設計的電性可滿足設計目標,且量產後實際運作不會出問題。因此,光是在IC設計層面,IC設計跟設計簽核團隊就很難協同工作,因為IC設計在收斂(Constrain)的時候,會希望規則越寬鬆越好,但設計簽核卻是用比較嚴格的角度來看待設計收斂,兩個團隊要合作,其實並不容易。
比較理想的作法是,設計簽核所使用模擬工具,其所產生的結果應該要回傳給設計工具,並動態地調整收斂規則,以便取得最好的設計成果,並提高設計作業的效率。這也就是工具業者常說的設計閉環(Close Loop)。但光是要做到這點,就有不少挑戰存在。
如果把IC設計跟封裝,甚至PCB放在一起,問題就更複雜了,因為IC設計是用GDSII,但PCB設計所使用的檔案格式卻是Gerber,光是檔案格式的轉換作業就是浩大工程。而且跟主要由直線、橫線這類單純幾何元素所構成的GDSII相比,Gerber裡面會有非常多GDSII不會用到的複雜幾何圖形,例如鋸齒線路、菊鏈等設計技巧。
為了推倒前後段各個設計環節之間的高牆,Cadence近年來一直在拓展其工具組合,試圖為電子設計各個環節的工程師提供功能更強大的設計工具。這些由Cadence提供的工具,跟其他同業相比,最大的特性在於可以很輕鬆地彼此銜接,甚至讓不同環節的設計資料可以互相串連,以便讓前後段工程師都能看到彼此對設計的調整,以及這些調整會對設計造成的影響,讓整個設計流程有更高的可視性。
Chiplet將牽動半導體勢力重新分配
對前段晶片設計人員來說,把SoC設計拆散成多顆小晶片,有很多顯而易見的優勢,例如不同的功能電路可以各自用最有成本效益的製程節點來生產、每顆小晶片的設計驗證變得比較單純等。另一方面,因為不同電路功能是個別製造出來的,因此晶片設計者可以把Chiplet看成樂高積木,按照市場對晶片功能的需求,快速兜出產品。因此,曾有業界人士指出,Chiplet不只是半導體製造技術上的變革,同時也會對矽智財(IP)的商業運作模式帶來變化,因為Chiplet會讓IP更容易重複利用。
對於這個觀點,魏培森認為,Chiplet的概念如果大幅普及,將會使許多新創公司找到出頭的機會。眾所周知,大型SoC的設計十分複雜,不僅設計週期長,先進製程的光罩成本也高得嚇人,大多數新創公司是負擔不起的。如果IC設計公司普遍採用Chiplet架構來設計產品,很多專注研發某些特定IP或電路功能的小型設計團隊,將會在與既有IC大廠合作的過程中,找到生存的空間。
孫自君也看好,Chiplet風潮將會為許多利基型的小型晶片設計公司搭起發揮的舞台,理由是利用Chiplet來實現晶片設計的產品開發速度,遠比SoC設計來得快。SoC有高度整合的優勢,但這也意味著每次設計改版,或是導入新的製程技術,所有的設計考量都要重新檢查一遍,這是非常耗時的工作。相較之下,Chiplet是用已經分割好的小晶片組成所需的晶片功能,先天上比較不會有牽一髮而動全身的疑慮,故採用Chiplet整合而成的晶片,在產品開發速度上會比重新開發一顆SoC要快得多。
不過,這並不意味著在Chiplet與SoC的競爭中,Chiplet一定會占盡優勢,因為整合作業也會產生成本,設計也需要時間。如果整合的整體成本過高,Chiplet不見得能在競爭中占得上風。所以,採用Chiplet進行晶片設計,雖然可以在前段省下不少成本,但後段封裝所使用的技術還是要慎選。一般來說,如果基板上的走線線寬大於2微米,PCB會是比較有成本競爭力的選項;若走線線寬小於2微米,就該考慮基於矽晶圓的封裝技術。
另一方面,Chiplet概念的興起,除了影響IC設計產業之外,對OSAT跟晶圓代工廠,也會造成明顯的影響。對OSAT廠來說,Chiplet既是危機也是轉機,因為Chiplet所使用的各種先進封裝技術,有不少會涉及晶圓級製程,因此晶圓代工業者在切入Chiplet市場時,會有許多先天上的優勢,例如晶圓代工廠只需要使用早已折舊攤提完成的舊設備,就可以滿足各種先進封裝的需求,但OSAT廠卻須向前段半導體製程進行新的投資。就成本面來看,OSAT業者跟晶圓代工廠的競爭,並不在同一條起跑線上。
但換個角度來看,封裝市場競爭者眾,很多已經十分成熟的封裝技術,早已沒有差異化的操作空間,只剩赤裸裸的殺價競爭。先進封裝的需求若因Chiplet而火上加油,對於有能力對晶圓及製程做更多投資的一線OSAT大廠來說,未嘗不是個擺脫紅海,創造營收成長的契機。
就晶圓代工產業來說,Chiplet的出現,也為在先進製程競爭中脫隊的代工廠創造出一個可以力拼敗部復活的機會。Chiplet打破了SoC時代,所有功能電路都得用先進製程實現的僵固性,晶片設計者可以為不同的電路功能選擇性價比最高的製程,再透過先進封裝技術來實現功能整合。因此,退出先進製程競賽的晶圓代工廠,可以轉而朝電源管理、I/O甚至射頻(RF) Chiplet發展。一般來說,電源管理只要用0.13微米甚至90奈米,就已經綽綽有餘;I/O跟某些需要支援混合訊號的嵌入式控制器,使用12/22奈米製程也已經非常足夠。
不過,對聯電、格羅方德(Global Foundries)等退出先進製程競賽的晶圓代工廠來說,要靠Chiplet翻身,等在前面的仍是一場硬仗,畢竟台積電在先進封裝上的布局深度與廣度,同樣是晶圓代工業者中的龍頭,且泛台積電體系(台積電、世界先進)的成熟製程,除了報價稍高之外,在良率、穩定度方面,也居於業界領先地位。
推進摩爾定律 半導體先進封裝領風騷
半導體效能的提升與「摩爾定律」多年來幾乎成為同義詞,過去製程微縮是達成每兩年同樣單位面積中,塞入兩倍電晶體最主要的手段,然而製程微縮在近年也碰到物理極限瓶頸的挑戰,如何持續透過技術的演進改善積體電路的效能,成為半導體產業最重要的任務,「先進封裝」成為最近幾年提升晶片效能的重要技術,相關技術受市場重視程度也水漲船高。
半導體線寬/線徑的微縮遭遇技術挑戰,晶片或裸晶的整合成為推升半導體效能的另外一個手段,立體堆疊與異質整合(Heterogeneous Integration)則是封測技術發展的核心要項。透過封裝技術整合晶片與製程微縮是不同層面的積體電路整合,但目的同樣都是為了提升電晶體的集積度,從早期的系統級封裝(System in Package, SiP)到晶圓級封裝、3D堆疊等同質整合(Homogeneous Integration)技術,到近期代表性的異質整合概念小晶片(Chiplet)設計帶動的封裝發展都具有高度潛力。
先進封裝成長動能強勁
先進封裝包含覆晶封裝、晶圓級扇入扇出型封裝及內埋式封裝等。根據產業研究機構Yole D'eveloppement研究指出,2018~2024年先進封測產值之年複合成長率(CAGR)高達8.2%,相較非先進封測技術產值CAGR約2.4%,與整體封測業產值成長率約5%,成長動能相對突出,且2024年先進封測產值與其他產值比重將進一步縮小。
隨著電子終端產品朝向低價格、多功能、高效能、高整合度發展,未來幾年5G與AI將引領科技應用發展的腳步,而半導體晶片製程走到3~5奈米,終端產品也要微型化與高度整合的晶片協助,須使用晶圓級封裝(Wafer Level Package, WLP)技術,如2.5D/3D IC、扇出型封裝(Fan-out Package)等,因應用領域或晶片類型不同會採用不同的技術,工研院產科國際所產業分析師楊啟鑫表示,主要目的就是提升效能與降低成本。
扇出型晶圓級封裝(Fan-out Wafer Level Packaging, FOWLP)技術與採用TSV的正統3D IC相較,概念接近2.5D IC,且成本可低於TSV 3D IC,因而逐漸受市場青睞。而在市場需求部分,扇出型封裝晶片具備薄型化與低功耗之優勢,故在產品應用上以可攜式裝置為大宗,預計2021年將消耗363萬片12吋晶圓,相較於2014年台積電推出InFO封裝時之33萬片12吋晶圓消耗量,已大幅成長約11倍。
而扇出型封裝若要能持續降低製作成本以增加應用,擴大製程基板的使用面積是最重要的手段,以12吋(300mm)晶圓來看,其可使用面積僅約為3.5代(620mm×750mm)玻璃基板的15%,突顯玻璃基板在面積上的優勢。相較於晶圓級扇出型封裝技術,投入面板級扇出型封裝若能建立足夠的良率,將可以大幅降低成本,所以面板級扇出型封裝成為封測大廠2020年的發展重點,楊啟鑫指出,面板級扇出型封裝分為先晶片(Chip First)與後晶片(Chip Last)技術類型,各廠也有自己的發展重點。
面板級扇出型封裝成兵家必爭之地
先晶片技術的優勢在於不需凸塊(Bumping)製程成本較低,缺點為若低良率發生時將導致晶片損壞;後晶片的優勢在於可以製作高階晶片,大型且具高密度接腳,缺點為需花費凸塊製程費用導致成本較高。關於主要封裝廠的動態,楊啟鑫說明,日月光積極布局扇出型封裝技術,除了自行開發之外,也與英飛凌(Infineon)及DECA的M-Series技術合作及授權,其他系列技術還包括:eWLB、FOCoS、FOPoP、FOSIP、HD FOCoS、Panel FO等。
另外,全球記憶體封測第一大廠力成,近年積極發展邏輯IC封測,從中低階邏輯IC封測跨入高階面板級扇出型封裝技術,開發各種型態的扇出型封裝技術,符合不同IC的應用需求(圖1)。在低成本部分有不需凸塊的Bump...
AI異構運算工作負載有解 HBM/運算加速相得益彰
近年來,異構運算(Heterogeneous Computing)逐漸興起,進而拓展了後摩爾定律時代在加速運算密集型工作負載方面的創新。當前資料中心產業中,普遍採用異構運算進行加速的工作負載種類繁多,包括人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一部分。FPGA元件則為現代資料中心工作負載提供了靈活應變能力和運算加速能力。
然而,在很長的一段時間內,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年中,雖然平行記憶體介面的頻寬性能得到改善,但進展依然緩慢;現在的FPGA支援的最大DDR4資料速率仍然只有2008年DDR3的兩倍左右。相比之下,自2008年以來,FPGA的運算能力卻提高了近八倍,而且隨著配備AI運算單元的元件推出,預計未來兩年內還會有更大的成長空間(圖1)。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型工作負載發展的主要限制因素。
圖1 FPGA運算性能成長與DDR頻寬提升比較
HBM2提升AI運算效能
HBM(High Bandwidth Memory)是一種高速的系統級封裝(SiP)記憶體技術,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,與採用傳統打線接合封裝的記憶體產品相比,可實現更大的儲存容量和更高的資料頻寬。聯合電子裝置工程委員會(Joint Electron Device Engineering Council, JEDEC)在2013年開始啟用初代HBM標準,2016年1月,第二代HBM2版本成為業界標準(圖2)。
圖2 HBM和2.5D結構
HBM2標準支援4個或8個8Gb DRAM裸晶逐個堆疊在一起,由一個2.5D矽中介層(Interposer)提供支援,該中介層可將記憶體堆疊與底層電路板連接起來。堆疊一些裸晶(通常是記憶體)而不是其他裸晶(通常是處理器)的多晶片封裝被稱為2.5D元件。
可以將多個堆疊整合在同一個封裝中。與傳統的多晶片DRAM產品相比,透過在一個電路板上堆疊多個裸晶並將其堆疊得更緊密,可以大大減少HBM記憶體封裝的占板面積。由於縮短了訊號在設備之間的傳輸距離,HBM技術還可以提高系統性能。此外,較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。
圖3 HBM裸晶堆疊技術
HBM具備先進的矽穿孔(Through Silicon Via, TSV)技術、微尺度互聯和突破極限的I/O數量,可以增加記憶體頻寬,與競爭對手相比,在用於繪圖卡的圖形雙數據速率(GDDR)記憶體方面,HBM無疑能提供更高性能。在元件級別,單個三星HBM堆疊可以提供高達307GB/s的資料頻寬,實現比GDDR5晶片快近10倍的資料傳輸速度。而在系統級別,與使用於GDDR的解決方案相比,HBM則能提供近3倍的輸送量,並且能將功耗降低80%,同時還可以節省寶貴的電路空間(圖4)。
圖4 HBM與GDDR頻寬比較
支援HBM的Virtex UltraScale+ FPGA提高了記憶體頻寬,例如,兩個三星HBM2記憶體堆疊可提供高達460GB/s的速度。將一個或兩個HBM2堆疊與各種尺寸的FPGA邏輯和DSP進行配對,為使用者應用選擇較佳的運算能力與記憶體頻寬/容量組合。如賽靈思(Xilinx) Alveo U280網路加速卡基於16nm UltraScale+架構,採用8GB三星HBM2,可為資料庫搜索與分析、機器學習推論及其他記憶體限制應用提供較高等級的加速功能。本文以深度神經網路與資料庫加速方面的研究為例,展示了支援HBM的元件優勢。
加速語言翻譯準確性
各種雲端應用正在提供自動即時語言翻譯服務,這種服務可以使用基於神經網路的機器學習方法在兩種語言之間翻譯語句。編碼器-解碼器架構推動了當今的商業自動化翻譯服務。在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以通過向量進行量化建模和反映。遞迴神經網路(Recurrent Neural Networks, RNN)、卷積神經網路(Convolution Neural Network, CNN)和基於注意力的模型等結構通常用於執行編碼和解碼功能。
近期研究表明,在語言翻譯中,只有採用基於注意力的網路才能達到業界一流的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成。該結構與前饋網路共同用於構建整個語言翻譯模型的解碼器和編碼器(圖5)。
圖5 基於注意力的神經網路語言翻譯模型
如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積計算。這些點積通常被組合到矩陣乘法計算,以實現更高效的運算。然而,與傳統在整個空間中大量重複使用權重參數以減少資料移動痕跡的卷積神經網路不同,這種基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法計算的記憶體頻寬要求要高得多。
透過建立一個轉換器分析模型,其是用於語言翻譯的注意力神經網路,並且已經完成了構建與映射以便在UltraScale+元件上實現。FPGA實現方案的架構採用DSP脈動陣列來執行矩陣乘法。中間的啟動資料儲存在晶片的URAM中,可以消除啟動造成處理器和晶片外記憶體之間的資料移動。HBM或DDR用於儲存所有嵌入字典的單詞嵌入與權重參數。
針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批次處理大小(B),對其進行分析就可以瞭解附加DDR的元件和支援HBM的元件的時間延遲(Time...
三大應用領域需求看漲 半導體異質整合勢不可擋
觀察這些應用領域需求可發現,若將晶片需求分為小體積、低延遲、低成本、高效能、低功耗等五大需求,對於半導體晶片的功能與規格皆不相同,如穿戴裝置主要著重在小體積、低功耗、低成本等需求,對於效能及延遲性要求相對較低;資料中心則為了因應高速運算的需求,因此較著重在高效能、低延遲的快速反應能力。
資策會MIC產業分析師黃馨
手機/醫材/自駕車 晶片需求大不同
針對上述所提到的五大晶片需求,以下將以手機、智慧醫療器材及自駕車等三個應用領域產品作為舉例,透過這三大應用領域的需求剖析,可發現未來晶片的發展不僅將朝向更多元件的整合,且隨著產業需求的不同,未來晶片將朝向客製化的走向發展。
手機著重RF模組整合
為因應不同通訊階段的頻譜要求,手機內整合的元件也有所不同,特別是在RF射頻模組的整合。RF前端模組主要包含功率放大器(PA)、低雜訊放大器(LNA)、濾波器、開關和被動元件等,讓訊號能夠在不同頻率下進行收發。隨著未來頻段的要求變多,RF模組除了需要有更高的整合度外,未來面對5G毫米波的興起,為了滿足高頻寬、低延遲及大量連線等需求,天線和RF模組必須整合,也因此未來通訊相關模組的元件整合將變得更加多元且大量。
醫療影像器材體積減小/元件增加
以腸胃鏡為例,過去腸胃鏡長度達200公分,對於彎曲的小腸檢視無法輕易達成,且易造成病患不適,膠囊內視鏡應運而生。相較傳統腸胃鏡,膠囊內視鏡大小僅有長2.6公分、寬1.1公分,膠囊內包含微型照相鏡頭、光感測器、影像傳輸器、迷你相機等元件。
未來,生物學家更提出微生物組療法,透過在細胞中植入感測器及記憶體組件方式進行疾病診斷,因此可發現,醫療影像器材體積逐漸減小的同時,整合元件數卻將持續增加。
自駕車整合感測元件/處理器/記憶體
為了賦予自駕車具備感知外界環境的能力,現階段自駕車的發展著重於搭載各種感測器做為感知媒介,包含光達、雷達、相機等。隨著未來自駕車等級的進步,對於自駕車中的電腦系統要求,將從現在的駕駛輔助到未來的完全自動化駕駛,效能要求的遞進不僅使得未來自駕車元件模組增加,同時配合自動化回應的趨勢,感測元件必須將感測內容,快速傳遞至處理器並迅速做出反應,因此感測元件與處理器及記憶體的整合,將成為未來的發展重點。
未來晶片趨向異質整合/客製化
從上述的三大應用領域需求可發現,未來晶片的發展不僅將朝向更多元件的整合,且隨著產業需求的不同,未來晶片將朝向客製化的走向。
隨著市場需求的發展,產品複雜度的提高使得整合元件數目隨之增加,若將處理器元件比作人類大腦,現階段產品需求,主要著重在創造更大容量且更快速運算的大腦。然而隨著通訊需求的提升,未來更重視提升大腦與外界聯繫的速度,以及透過加入眼、耳、口、鼻、手等感測元件進行感知,甚至增加大腦在感知後自動判別並執行反應等功能,因此處理器加上各式元件的做法,將成為未來產品發展趨勢。
終端產品逐漸走向多晶片且客製化的方向前進,晶片製程因為摩爾定律趨緩,開始走向透過封裝方式進行異質晶片的整合。
過去,半導體產業以摩爾定律作為主要依循的準則。根據摩爾定律定義,每隔18個月,積體電路上的電晶體數量將成長一倍,受惠於摩爾定律持續的發展,2018年,整體半導體產值達到4,800億美元的收益。
儘管台積電等晶圓代工龍頭持續挺進5nm、3nm的製程,但仔細觀察近年來摩爾定律節點成本的改變,在14/16nm之後,晶圓生產成本持續變高,摩爾定律將無法達到過去規模經濟的效益。此外,終端需求對於成本、效能、體積以及整合程度的要求日漸提高,在面對成本日益增加、終端產品走向高複雜化的情況下,晶片的整合成為半導體產業界越趨重視的方法。
晶片功能整合方式主要可分為系統單晶片(SoC)以及系統級封裝(SiP)兩種。
SoC整合度與成本皆高
系統單晶片是透過電路設計的方式,將數個功能不同的晶片整合在同一個晶片上,這樣的晶片整合程度相當高,效能表現也很好。然而由於SoC的功能整合僅限於使用同一製程技術的晶片,對於整合元件中,因考量製程成本而採用較低階製程的感測元件或MEMS等功能元件,將無法與採用先進製程的處理器、記憶體進行SoC晶片整合。
此外,SoC的開發成本卻也相當高,如台積電7nm的系統單晶片開發成本已接近3億美元,未來進入5nm世代後,更上看5億美元,也因此SoC主要用於生產量大且生命周期較長的產品,目前全球能夠投入先進製程的IC設計業者,也只剩下少數龍頭與系統大廠。
SiP異質整合超越摩爾定律
為因應SoC所面臨的製程瓶頸及開發成本過高的挑戰,系統級封裝的概念開始被半導體業界廣泛採用,更被定義為是超越摩爾定律的重要方式。SiP突破SoC的整合限制,將數個功能不同、製程不同、來源不同的晶片,透過封裝整合在同一個基板上,成為一個具備多元功能的晶片,這類的整合概念就是現在所指的「異質整合」。
隨著近年來系統級封裝技術的演進,晶片堆疊封裝使得晶片面積有效縮小,開發成本也較SoC來得低,晶片整合上更具彈性,也因此近期被廣泛應用在上市時間較短的消費性電子產品上。
3D封裝提升晶片傳輸速度/效能
異質整合的晶片模組發展越趨複雜且多樣化,技術難度也越來越高。從傳統的2D平面封裝逐漸朝2.5D封裝邁進,2.5D的封裝方式是讓晶片並排,並採用中介層(Interposer)和重分部層(Redistribution Layer, RDL)的設計進行晶片整合,透過晶片與基板間的中介層連接,大幅提高封裝接腳的訊號密度,提高傳輸速度及效能。
近年來,將多晶片垂直堆疊的3D封裝更逐漸成為業界發展重點,透過晶片間矽穿孔(Through-Silicon Via, TSV)的互聯技術傳遞訊號,TSV的串接使得晶片間的距離更短,晶片傳輸速度更快、效能更佳,整體的晶片整合度也更好,目前最廣泛的應用在多顆高頻記憶體與處理器的堆疊上。
隨著製程難度的提高,異質整合面對的挑戰也將趨於複雜。首先,異質整合使得晶片在同樣面積下,堆疊多個晶片形成多層3D架構,當晶片堆疊的緊密程度提高,晶片間散熱面積也將隨之減少。此外,晶片距離的縮短及單一晶片中越來越多的運算單元,將使電磁干擾的問題越趨嚴重,異質晶片整合度也將面臨巨大挑戰。
過去半導體產業鏈各自分工,現今隨著製程發展,面對日益增加的異質整合技術挑戰,未來半導體上中下游的價值鏈將須緊密合作,以通力解決異質整合問題(圖1)。
圖1 異質整合挑戰與半導體產業鏈關係改變
異質整合的立體堆疊架構下,多維度雜訊將比過往的訊號干擾更加難以處理,因此除了EDA廠商須提供IC設計廠更多樣化的模擬工具進行多類型訊號模擬外,在產品設計之初,整體產業鏈也需有更多的上下游溝通,包含訊號完整度、電源完整度等技術,未來皆需以產業鏈偕同模擬的方式進行。
與此同時,多層的3D架構使晶片散熱面積減少,不只須仰賴材料及設備廠提供更多創新的材料來克服發熱問題,產業鏈也需透過熱模擬的方式,找出功耗較低、散熱效能較高的晶片及導熱效果較佳的封裝架構。
產業鏈緊密串連必不可缺
異質整合晶片來源、製程的不同,使得整合難度上升,晶片必須透過系統級的完整分析及3D模擬,避免系統分割時區塊不夠精確的問題。另外,晶片的厚薄與晶片的精準堆疊也是異質整合相當關鍵的成功要素,也因此,未來上下游協同設計將成為產業發展的趨勢。
面臨異質整合的技術挑戰,未來半導體產業鏈關係將需要透過更緊密地協同設計、協同模擬等方式進行合作。
然而由於看好異質整合的發展效益,產業鏈中的IC製造廠及EMS廠紛紛依循自身優勢投入IC封測產業,面對這樣的產業鏈分工重組,未來IC封測廠將會有部分產品及技術與IC製造廠或是EMS廠重疊的情形,因此產業鏈競合關係將有所改變,面對封測業務市佔將被瓜分的IC封測廠而言,在未來垂直應用領域的客製化市場中找尋快速商用化的模式將是IC封測廠未來的利基。
(本文作者為資策會MIC產業分析師)
緩解資料移動/存取瓶頸 HBM大幅加速AI應用
本文將以賽靈思(Xilinx)旗下解決方案為例,透過深度學習和資料庫加速的案例,闡述一個均衡且支援三星HBM2的賽靈思運算加速器系統,如何提供具備最佳靈活性、效率和效能的高效運算加速解決方案。
近年異質運算逐漸興起,拓寬了後摩爾定律時代在加速運算密集型作業負載的創新。在當前資料中心產業中,普遍採用異質運算進行加速的作業負載種類繁多,包含人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一小部分。
然而,長期以來,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年裡,並行記憶體介面的頻寬效能雖有改善但進展緩慢;現今FPGA所支援的最大DDR4資料速率仍然只有2008年DDR3的2倍左右。相比之下,自2008年以來,FPGA的運算能力已提高了近8倍,且隨著配有AI核心的Versal元件推出後,預計未來兩年內還有更大的成長空間。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型作業負載發展的主要限制因素(圖1)。
圖1 運算容量的提升與DDR頻寬的改善比較
HBM效能/傳輸更高更快
HBM是一種高速的系統級封裝(SiP)記憶體技術,與採用傳統打線接合封裝(Wire Bonding-based Package)的記憶體產品相比,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,來達到更大的儲存容量與更高的資料頻寬。聯合電子裝置技術協會(JEDEC)在2013年開始採用初代HBM標準,並在2016年1月批准第二代HBM2版本為業界標準。
HBM2標準支援4個或8個8Gb的DRAM晶粒逐個堆疊在一起,由一個2.5D矽「中介層」提供支援,該「中介層」可將記憶體堆疊與底層電路板連接起來。堆疊一些晶粒(通常是記憶體)而不是其他晶粒(通常是處理器)的多晶片封裝被稱為2.5D元件(圖2)。
圖2 HBM和2.5D架構
由於多個堆疊能被添加在同一個封裝中,因此與傳統的多晶片DRAM產品相比,當堆疊多個晶粒在一個電路板上並將其堆疊得更緊密時,可以大幅減少HBM記憶體封裝的水平占板面積。此外,HBM技術還縮短了訊號在元件之間的傳輸距離,因此可以提高系統效能,且較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。
圖3 HBM晶粒堆疊技術
HBM具備先進的TSV技術、微尺度互連和突破極限的I/O數量,可以增加記憶體頻寬,與其最強勁的競爭對手,也就是用於繪圖卡的繪圖用雙倍資料傳輸率(GDDR)記憶體相比,HBM明顯能提供更高的效能。在元件級別,單個三星HBM立方體可以提供高達307GB/s的資料頻寬,比GDDR5晶片高出近10倍的資料傳輸率。而在系統級別,與採用GDDR的解決方案相比,HBM能提供近3倍的輸送量,並使用少於80%的功耗,同時還可以節省寶貴的電路空間(圖4)。
圖4 HBM與GDDR頻寬比較
FPGA元件助力 記憶體頻寬再上層樓
以下將以賽靈思旗下FPGA產品為例,該公司支援HBM的Virtex UltraScale+ FPGA大幅改善了記憶體頻寬,例如2個三星HBM2記憶體堆疊就可提供高達460GB/s的速率。當將1或2個HBM2堆疊與各種尺寸的FPGA邏輯(多達285萬個邏輯單元)和DSP(高達9,024個DSP48E2分割,可提供28.1峰值INT8 TOP)進行配對時,使用者就可以選擇搭配全新支援HBM的UltraScale+元件系列,為其應用選擇最佳的運算能力與記憶體頻寬/容量組合。
另一方面,除了支援HBM的Virtex UltraScale+FPGA,賽靈思還推出Alveo U280資料中心加速器卡,由16奈米UltraScale+架構所打造,採用8GB三星HBM2,可為資料庫搜尋與分析、機器學習推論及其他記憶體限制應用提供更高等級的加速功能;並涵蓋了CCIX支援,可以利用現有的伺服器互聯基礎設施和即將推出的CCIX處理器,提供高頻寬、低延遲的快取一致性共用記憶體存取。許多受限於記憶體的應用都能受益於支援HBM的UltraScale+元件,本文將以深度神經網路與資料庫加速方面的案例為例,展示支援HBM的UltraScale+元件之優勢。
強化記憶體頻寬提升AI語言翻譯效能
如今,各種雲端應用都有提供自動即時語言翻譯服務,其可透過採用神經網路的機器學習方法在兩種語言之間翻譯語句(稱為機器翻譯),編碼器-解碼器架構強化當今的商業自動化翻譯服務。
在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以透過向量進行量化建模和反映。遞迴神經網路、卷積神經網路和基於注意力的模型等架構通常用於執行編碼和解碼功能。
近期研究表示,在語言翻譯中,只有採用注意力的網路能達到最高的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)所構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成,該結構與前饋網路被共同用於建構整個語言翻譯模型的解碼器和編碼器(圖5)。
圖5 轉換器--基於注意力神經網路的語言翻譯模型
如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積運算。這些點積通常被組合到矩陣乘法運算,以達到更高效的運算。然而,與在整個空間中大量重複使用權重參數以減少資料移動痕跡的傳統卷積神經網路不同,這類基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法運算的記憶體頻寬要求要高出許多。
我們建置了一個用於語言翻譯且基於注意力的先進神經網路的轉換器分析模型,並將其映射在UltraScale+元件上運行。FPGA建置方案的架構採用DSP脈動陣列來執行矩陣乘法,中間的啟動資料儲存在晶載URAM中,可以消除啟動時所造成在處理器和外接記憶體之間頻繁進行的資料移動。HBM或DDR則用於儲存所有嵌入字典的單詞嵌入與權重參數。
針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批量大小(B),對其進行分析就可以瞭解附加DDR的UltraScale+元件和支援HBM的UltraScale+元件對於延遲和傳輸量之間的權衡。這一研究對於DDR與HBM的建置,假設使用具有256個16位元輸入和32個16位元輸出的脈動陣列,並將其運行在710MHZ的UltraScale+元件上。詳細的傳輸量與延遲關係圖請見圖6。
圖6 採用具有HBM和DDR4的UltraScale+元件進行語言翻譯效能分析。
長度為8的句子在4條通道上運行的最低延遲約為15.7ms,傳輸量為508符號/秒。一條DDR通道用於存取單詞嵌入資料,其餘三條DDR通道用於載入權重。對於支援HBM的元件而言,一個長度為8的句子之最小延遲為2.2ms,比DDR介面低7倍以上。DDR介面在兩種句子長度上都不能達到7ms以下的延遲,但是支援HBM的元件在傳輸量為10,419符號/秒,且句子長度為8的情況下可達到6.1ms的延遲,在輸送量為4,682符號/秒,且句子長度為16的情況下可達到6.8ms的延遲。
借助通用矩陣運算資料庫加速AI應用
與前面討論的機器翻譯案例一樣,幾乎所有現代深層神經網路(深度學習)的主要運算都是以矩陣乘法的形式來完成。除了機器翻譯以外,在資料中心廣泛部署的其他典型深度學習應用有影像/視訊分析、網路搜尋的搜尋排名系統、廣告投放的推薦系統、內容/來源推薦、語音辨識以及自然語言處理。
為了更佳地支援更多的深度學習應用,賽靈思開發了通用矩陣運算(GEMX)資料庫,用於加速元件上的矩陣運算,該元件由SDAccel開發環境提供支援。該資料庫包括三個組件:引擎庫、主機代碼編譯器與以應用或系統建構的環境,引擎庫則由一組具有BLAS函數介面的C++範本組成,可以在FPGA上進行矩陣運算。
主機代碼編譯器將主機代碼矩陣函式呼叫編譯成一系列指令,用於觸發FPGA上的矩陣運算,建構環境採用GNU make流將FPGA和主機代碼影像生成過程自動化。此外,該產品還支援使用者對系統的各個方面進行配置,例如,FPGA平台、FPGA影像中建置的引擎數量等。
雖然GEMX引擎的兩個輸入矩陣都來自DDR記憶體,但GEMX的傳輸量取決於DDR介面的頻寬。圖7的分析比較了使用DDR4連接UltraScale+元件的GEMX與使用支援HBM的UltraScale+元件的GEMX之效能。該分析模型充分利用了記憶體頻寬,並假設使用32×32×128的矩陣作為GEMX的輸入。結果如圖7所示,與使用4條DDR通道相比,支援HBM的元件可以將GEMX的效能提升約3.6倍。
圖7 GEMX效能
HBM讓記憶體存取/使用更有效
受益於HBM記憶體控制器中的靈活定址方式,支援HBM的UltraScale+元件具備的獨特優勢之一就是HBM通道的靈活並行使用。HBM通道的存取與使用,是能夠完全地被可重配置和重新編程,還可以通過FPGA邏輯輕鬆存取。
如圖8所示,使用者可以將原始資料庫檔案剝離到多個HBM通道中,並讓並行處理運算單元執行不同的資料庫操作,以獨立並行存取資料庫的不同部分而無需進行同步。這一特性有助於改善即時案例中的操作延遲並有效地使用HBM,因為所有運算單元都可以即時回應資料庫查詢,毋須批次處理或同步。在上述機器翻譯案例中,該特性還用於分離兩個通道進行單詞嵌入存取,而其餘通道則用於高頻寬權重參數傳輸。
圖8 靈活的並行記憶體通道存取
雖然三星HBM在AI和資料庫加速等案例中的重要性已得到證實,但還有很多其他的資料中心作業負載也可從HBM中顯著獲益。總而言之,在資料中心領域,隨著異質運算加速的發展趨勢以及運算設備技術的創新,迫切需要在運算單元附近附加像HBM這樣的高效能記憶體系統;而支援HBM的UltraScale+元件具有獨特的價值,以深度學習和資料庫加速為例,賽靈思支援HBM的UltraScale+元件就發揮出運算加速的新潛力,並將其引領至更高的水準。
(本文由賽靈思提供)
先進封裝不畏逆風 2024年產業規模達440億美元
半導體產業正處於轉折點。CMOS技術發展速度放緩,加上成本不斷上升,促使業界依靠IC封裝來維持摩爾定律的進展。因此,先進封裝已經進入最成功的時期,原因來自對高整合的需求、摩爾定律逐漸失效,運輸、5G、消費性、記憶體與運算、物聯網、AI和高效能運算(HPC)的大趨勢。
市場研究和戰略諮詢公司YoleDéveloppement(Yole)最新研究指出,在經歷了兩位數的成長並在2017和2018年實現創紀錄的營收之後,Yole預計2019年半導體產業將出現放緩。然而,先進封裝將保持成長趨勢,同比成長約6%。總體而言,先進封裝市場將以8%的年複合成長率成長,到2024年達到近440億美元。相反,在同一時期,傳統封裝市場將以2.4%的年複合成長率成長,而整個IC封裝產業CAGR將達5%。
預計2.5D/3D TSV IC,ED(層壓基板)和扇出型封裝的最高收入CAGR分別為26%、49%、26%,以不同市場區隔而言,行動和消費性應用占2018年出貨總量的84%。Yole認為,預計到2024年,年複合平均成長率將達到5%,電信和基礎設施是先進封裝市場成長最快的部分(近28%),其市場比重將從2018年的6%增加到2024年的15%。在營收方面,汽車和運輸部門在2024年將其市占率從9%增加到11%。
2023年2.5D/3D封裝產業規模達57.49億美元
根據產業研究機構Yole Développement(Yole)的研究指出,像HBM和CIS這樣的硬體創造了TSV的大部分收入。2023年整體堆疊技術市場將超過57億美元,年複合成長率(CAGR)為27%,2.5D/3D TSV和晶圓級封裝技術中,消費市場是最大的貢獻者,市場比重超過65%。高效能運算(HPC)是立體構裝技術的真正驅動力,並且將呈現高度成長到2023年,市場占有率從2018年的20%增加到2023年的40%。汽車、醫療和工業等領域的應用將是主力。
而消費性、高效能運算與網路(HPC & Network)、汽車、工業與醫療則是最主要的應用領域,其中消費性應用還是占據最大的規模,市場將從2018年的11億7600萬美元,成長至27億2200萬美元,CAGR 18%,而高效能運算則將從3億5000萬美元成長至23億3200萬美元,CAGR高達46%,是成長率最高的應用,車用市場8100萬美元成長至2億5200萬美元,CAGR 25%,工業與醫療應用合計將從2018年的1億5000萬美元,成長至2023年的4億5200萬美元,CAGR也是25%。
專訪應用材料副總裁暨台灣區總裁余定陸 搶食AI商機需要材料創新
美商應用材料副總裁暨台灣區總裁余定陸認為,科技業正面臨有史以來最大的AI大戰。在電腦運算處理器部分,人工智慧需要大量、快速的記憶體存取及平行運算,這時繪圖處理器(GPU)及張量處理器(TPU)會比傳統運算架構更適合處理人工智慧的應用。為使人工智慧潛力完全開發,其效能/功耗比需比目前方案提高1,000倍。
另一方面,為了應對大量資料跟高速運算需求,儲存資料用的記憶體、用來傳輸資料的高速介面技術等,也有許多可以發揮跟探索的空間。先進封裝技術的推陳出新,讓異質整合成為可能,不僅讓晶片業者可以在單一封裝內整合更多功能,同時也讓資料傳輸的速度大為提升。
隨著晶片的結構越來越複雜,半導體製程發展的挑戰變得更為艱鉅。但如果在材料科學方面能有新的突破,將可協助半導體製造商解決不少問題。例如在晶片內數量越來越多的矽穿孔(TSV),必須精準地打在正確的位置上,否則會形成短路。但以現在的製程方法,要確保TSV的位置正確,是一大挑戰。為此,應材已發展出可以自動對位的新材料跟對應製程方法。
最後,為了應對未來的挑戰,半導體產業的運作模式也必須跟著改變。當今的半導體產業上下游都是以直線型的方式來運作,但未來必須以網路的思維進行平行發展與學習,運用互連加速創新。每家廠商不只要面對客戶,以後還要跟客戶的客戶、客戶的夥伴攜手合作,才能發展出符合客戶需求的產品跟解決方案。
美商應用材料副總裁暨台灣區總裁余定陸認為,AI為半導體產業帶來巨大商機的同時,也帶來許多新的挑戰。
先進封裝2023年產值達390億美元
2017年是半導體產業史無前例的一年,市場成長率高達21.6%,促使產業規模膨脹達創紀錄的近4100億美元。在這種動態背景下,先進封裝產業發揮關鍵作用,根據產業研究機構Yole Développement(Yole)最新研究指出,2023年先進封裝市場規模將達到約390億美元。
從2017年到2023年,整個半導體封裝市場的營收將以5.2%的年複合成長率(CAGR)成長。仔細分析其中差異,先進封裝市場CAGR將達7%,另一方面,傳統封裝市場CAGR僅3.3%。在不同的先進封裝技術中,3D矽穿孔(TSV)和扇出型封裝(Fan-out)將分別以29%和15%的速度成長。構成大多數先進封裝市場的覆晶封裝(Flip-chip)將以近7%的CAGR成長;而扇入型晶圓級封裝(Fan-in WLP)CAGR也將達到7%,主要由行動通訊應用推動。
先進半導體封裝被視為提高半導體產品價值、增加功能、保持/提高性能同時降低成本的一種方式。無論如何,更多異質晶片整合,包括系統級封裝(SiP)和未來更先進的封裝技術都將遵循此趨勢。各種多晶片封裝技術正在高階和低階應用同時開發,用於消費性、高速運算和專業應用。