HTOL
雲端功耗/終端電壓/異質整合挑戰紛起 AI晶片力克可靠度設計難關
AI技術是透過模擬人腦的類神經網路,經過深度學習,取得物件特徵參數,產生模擬人腦的判斷能力。這看似很艱深的AI技術,其實早已進入大眾的日常生活,包括手機語音輸入辨識能力,幾乎達真人辨識水準即是一例。
除了演算法與大數據的演進與支援之外,硬體方面,AI晶片依不同的應用領域,不斷往高效能、高頻寬或低耗電等特性演進(表1),因此晶片硬體效能不斷提升,更是支持AI應用領域不斷進步的必要因素。
AI運用在COVID-19防疫上,其晶片的可靠度與效能是重要關鍵。由於AI雲端運算晶片具有高功耗特點,AI終端運算晶片則有低電壓的特色。然而這些特性不僅會影響AI晶片的效能與壽命,甚至連AI晶片可靠度試驗設計手法、設備等,也面臨極大挑戰。一般而言,有以下三大挑戰。
雲端AI晶片面迎熱消散/平衡之高功耗挑戰
資料中心的雲端AI晶片,肩負人工智慧的深度學習任務,必須提高效能運算,也因此將耗費大量電能,其單一顆晶片耗電量甚至超過200W(瓦),伴隨產生的高熱,將使得晶片老化速度加劇。
因此,一年必須連續工作365天的雲端運算AI晶片,對老化產生的可靠度問題更需審慎評估。
可靠度測試原理必須抽樣(Sampling)一定數量的IC進行實驗來預估母體的生命週期與故障機率。通常抽樣的數量為77顆,當77顆百瓦的晶片一起在一台可靠度系統設備執行1,000小時的可靠度測試時,上萬瓦的功率熱能將會嚴格考驗可靠度測試系統的熱消散與熱平衡能力。
唯有精準的熱消散與熱平衡能力,才能讓每一顆晶片在執行各種不同運算模式時,使晶片都能維持穩定的接面溫度(Junction Temperature, Tj),如此才能夠準確預估IC的生命週期。因此,如何消散與控制高效能雲端AI晶片所產生的熱能,將是IC可靠度實驗設計面臨的挑戰。
多系統電源需求考驗終端AI晶片低電壓設計
終端AI晶片因其應用環境的特殊性,除了運算效能外,還被要求低耗電,例如行動裝置、IoT、無人機、電動車自動駕駛輔助等,皆需仰賴電池供電。
雖然半導體製程不斷進步,相同邏輯閘數下的動態電流越來越省電,但是尺寸微縮的物理特性效應下,電晶體靜態漏電流反而增加,摩爾定律每兩年電晶體面積縮減一半的好處,並無法讓晶片的功耗密度減半,相同面積的晶片將會消耗比以往更大的電流。
故為了降低功耗,除了低工作電壓設計外,多工作電壓與多閘極電壓的設計普遍可見。然而,對於可靠度測試系統而言,動輒10組以上的系統電源需求,將挑戰可靠度設備電源數目的極限。
同時1V或甚至低於1V的主電源(Core Power)低工作電壓,將使得IC餘裕度(Power Margin)越來越小,電路板上的電壓降(Power IR Drop)或者漣波(Power Ripple),將容易造成IC可靠度測試出錯,因此規畫一個終端AI晶片的HTOL可靠度測試環境,從設備選擇、PCB電路板模擬與製作,以及各種細節與設計上的考量,必須大幅嚴謹於一般邏輯IC。
異質整合挑戰:熱消散路徑複雜化
異質整合(Heterogeneous Integration)是AI晶片一項重要的趨勢,為了加快不同晶片間的傳輸頻寬,不同製程的晶片會被整合在一個封裝內,常見如HBM/Sensor/MEMS/Antenna等,經由TSV/RDL/Bump/Interposer等製程手法,讓各個晶片並排或堆疊起來(圖1),這將大幅提升異質晶片間的資料傳遞效率,並使耗電量更低。
圖1 異質整合晶片
但是,越複雜的堆疊架構,將使熱產生與熱消散路徑複雜化,例如較大功耗晶片不一定位在封裝中心位置,各個晶片厚度可能不盡相同,將使得晶片產生的熱消散與熱感測方式不同於傳統封裝,因此如何在可靠度測試時正確量測與監控晶片溫度變得更加複雜。
綜上所述,如何面對熱消散與熱平衡能力、測試系統的電壓極限、以及異質整合的熱消散路徑複雜化,是在執行可靠度設計驗證時,必須克服的挑戰。對此,本文提出以下建議。
液態冷卻系統穩定控制高功耗AI晶片產生熱能
散熱設計功率(Thermal Design Power, TDP)是CPU晶片對主機板「散熱能力」的要求規格,目前桌上型電腦CPU的TDP規格最高在150瓦左右;而電競玩家為了維持CPU長時間高效高頻工作,往往會升級主機板、散熱片、風扇等等配件,使得升級後的系統散熱能力高於TDP要求,讓CPU能長時間高頻工作,而不會發生過熱降頻甚至休眠等問題。
但是伺服器及HPC等雲端AI晶片,當前TDP規格已達200W以上超高發熱功耗。而晶片因封裝結構與材料等因素,已難以使用空氣對流當散熱媒介,將晶片Junction溫度控制在目標值。
尤其可靠度測試要求的目標溫度在125℃,遠高於桌上型電腦的70℃,通常125℃時晶片功耗牆已處於解鎖狀態,故一不小心極可能造成晶片高溫燒毀。因此,當如此高功耗的IC進行高溫可靠度測試時,測試系統必須提供更快速的熱消散能力。
該可靠度驗證實驗室的解法是,利用更高效的液態冷卻控制調節系統(Liquid Cooling System),搭配客製化液態循環測試座(Socket)(圖2),此系統利用液態熱交換速率優於氣態的特性,以及即時監控晶片溫度與調節液態流速等方法,穩定控制超高功耗AI晶片產生的熱能,成功收集可靠度實驗數據。
圖2 液態冷卻系統
測試電路板電源層超前模擬 免去生產組裝後效能不符
AI晶片採用先進製程,超低的工作電壓已來到1V以下。然而,當高電流經過電路板走線時,容易在電路板上產生由低到高的壓降(DC IR Drop)(圖3),IR Drop將壓低原本已超低的工作電壓,容易使得AI晶片因電源電壓餘裕度(Power Voltage Margin)不足而失效。
圖3 IR Drop模擬
此外,當IC Power抽載大電流時,也會產生各種頻率的Simultaneous Switching Noise(SSN)。
而電路板的電源層阻抗(Power Plane...
高良率/可靠度/具磁抗擾性 eMRAM工業/物聯網大顯身手
例如格羅方德先前已由晶圓級測試展示0Mb 22nm FD-SOI eMRAM巨集功能,突顯出sub-ppm BER、數據保留以及從1Mb收集的早期可靠性結果。但是為了保證eMRAM產品的可製造性,最重要的是驗證具有高良率的封裝水準產品的功能性與可靠性。本研究使用先進的磁性穿遂接面(MTJ)堆疊、整合和蝕刻製程,藉由在寬廣的工作溫度範圍(-40至125℃)和ECC-off模式下的封裝水準所取得的產品功能性和可靠性,證明22nm FD-SOI eMRAM的可製造性。
格羅方德的eMRAM產品能夠通過標準的可靠性測試,例如LTOL(168小時),HTOL(500小時),1M的耐久週期和5x回流焊接測試,故障率小於1ppm。此外40Mb eMRAM巨集能夠滿足備用和主動模式下的磁抗擾性要求。
eMRAM技術實現高良率
40Mb 22nm FD-SOI eMRAM巨集,其中顯示MTJ陣列的橫截面TEM(圖1)。該晶片配備內部偏壓、時序控制系統和ECC。內部電壓以tick為單位,由登入設定進行管控。MTJ堆疊、整合和蝕刻製程已進行優化,以符合蝕刻製程和HPD2後續退火製程,但仍符合晶片級的所有MTJ性能表現。
圖1 (a)40Mb 22nm FD-SOI eMRAM巨集,(b) MTJ陣列的橫截面TEM
藉由達成高穿隧磁阻效應(TMR),其中Rp為並聯(P)或是狀態為0電阻,而Rap為反並聯(AP)狀態為1電阻和減少MTJ電阻分布,進一步改良MTJ堆疊和蝕刻製程,爭取20%的讀取裕量,以確保在125℃量產時能保持穩定的良率。圖2(a)和(b)分別顯示,拜先進的MTJ堆疊和蝕刻製程所賜,TMR和電阻分布的改進,達成TMR/的(Rp)~24(一般SA需求>20),以確保在125℃的情況下能獲得高良率。
圖2 為了獲得最佳MTJ性能,隨著時間進展的製程改善趨勢:(a)適用於不同製程的TMR(2)Rp sigma。TMR和Rp sigma都獲得顯著改善,以在125℃時獲得足夠的讀取裕量。TMR/σ(Rp)∼24at125℃(SA極限∼20)
藉由提升自旋轉移矩效率,符合5x回流焊接後,再提高寫入裕量。實際的1Mb位單元MTJ電阻分布,描繪了σ(Rp)~28的較寬分隔(圖3)。良率隨時間推移出現諸多指標性的變化,最終製程實現了穩定且高良率(圖4)。而5x回流後不同MTJ和蝕刻製程的BER趨勢(圖5)。透過優化的製程,整個晶圓獲得穩定的回流性能(中位數BER<1E-7)。
圖3 實際1Mb單元陣列的Rp和Rap狀態的位單元電阻分布
圖4 40Mb eMRAM t0 BER(<6E-6)隨時間進展的良率改善趨勢
圖5 不同MTJ製程5x回流後BER改善趨勢,顯示了對於10ppm BER標準,整個晶圓達到100%之5x回流性能
不同MTJ堆疊的標準化開關電壓(Vc)與矯頑磁場(Hc)之間的關係(圖6),所有這些堆疊都通過5x回流焊接,良率為100% (BER<1ppm)。陰影區域中的數據點顯示出最佳的寫入裕量,並且選擇了產品認證堆疊來獲得最佳的耐久裕量,同時滿足5x回流焊接的要求。
圖6 (a)左圖為針對不同堆疊拆分的歸一化MTJ Vc與Hc之對比。(b)右圖為MTTF與電壓之間的關係,顯示不同製程拆分的固有TDDB有所改善
為了進一步提高耐久裕量,須調整氧化鎂(MgO)阻障和蝕刻製程。來自位元陣列的TDDB特徵(圖6b)顯示,在工作電壓下以製程3(用於品質鑑定),TDBB的固有改良>2。在晶圓級進行最終鑑定過程中,所測量的MTJ電氣測試(ET)參數的分布(圖7),描述整個晶圓的常態分布。此後,出現了從大量封裝零件中收集到的40Mb eMRAM產品性能表現資料。選擇工作電壓(Vop)偏置條件來過度驅動晶片,以包含晶片到晶片和晶圓到晶圓t0...