HBM
新興應用前仆後繼 GDDR/HBM高效能記憶體潛力大
在今日的資料經濟中,每天有極大量的資訊產生、被儲存和處理。資料產出的深入洞察可創造驚人的價值,並更進一步提升效率。記憶體科技的創新正是讓資料洞察從無到有的關鍵。本文旨在探討今日與未來市場對於高效能記憶體的需求,使讀者了解現階段的市場挑戰,以及高效能記憶體對於各種資料密集與頻寬密集型的應用均不可或缺的原因。
高效能記憶體市場趨勢/流變
AI、機器學習、深度學習、無人自駕車、高效能運算、虛擬實境、擴增實境等應用,使下一代遊戲不只是熱門詞彙。
這些應用的使用量大幅成長,皆需用到非常大量的資料—這些資料不僅量大,還必須被快速和重複分析,而占用極大的系統頻寬(圖1)。筆者相信,2020年是決定下一代高效能記憶體技術發展的關鍵年。
圖1 各領域針對資料使用量不斷上升
打造高效能記憶體系統
雖然專用於繪圖卡快速渲染之同步動態(Synchronous Dynamic)繪圖用雙倍資料傳輸率(Graphics Double Data Rate, GDDR)記憶體技術已發展多年,但本文僅探討2008年GDDR5出現後的進展。當年,市場需要以已知的設計方法和原料,以及可負擔的封裝方式,來提高記憶體的資料傳輸速率。GDDR5從512Mb開始、成長到8Gb的密度,最後達到每引腳8Gbps的最高資料傳輸效能。若要計算系統頻寬的話,以典型的繪圖卡配置(8顆元件、32位元介面)而言,每引腳傳輸速率8Gbps的GDDR5可提供8GB的訊框緩衝(Frame Buffer)與256GBps的系統頻寬。市場雖一度可以接受這樣的效能,但不久後便追求進一步提高頻寬。
2015年美光(Micron)與NVIDIA合作,在GDDR5X中導入JEDEC的創新標準,將每引腳最高的資料傳輸率增至12Gbps。之後的兩年期間,GDDR5X稱霸高階繪圖卡市場。例如NVIDIA Titan X(32位元介面、12顆元件、每引腳資料傳輸率11.4Gbps)的系統頻寬便達到547GBps。
或許,GDDR5X最重要的成果是,它奠定了GDDR6的框架。GDDR6於2018年秋季問世後,效能立刻在市場上顯現。當NVIDIA於2018年、AMD於2019年推出8Gb GDDR6時,美光為兩家公司的產品發布夥伴,滿足市場對高效能的需求。GDDR6現仍在產品預期生命週期的相對早期階段,目前,每引腳最大資料傳輸率為16Gbps。使用GDDR6的系統最高頻寬預計可達768GBps(32位元介面、12個元件、16Gbps的每引腳資料傳輸速率)。GDDR6不只是高效能的解決方案,也是適用於多種不同應用的成本優化方案(表1)。
講到高效能記憶體,就不免提到高頻寬記憶體(HBM)。HBM不但與運算元件緊密整合,還能同時降低功耗和拉高頻寬,填補記憶體方案的缺口。HBM透過堆疊記憶體元件提高密度,並以較低時脈達成較高的I/O數,進而提供高頻寬,並具備較低功耗。HBM是一種強大的高效能記憶體,但由於產品本身的複雜性,也是成本相對較高的方案,因此HBM鎖定需較高頻寬,且成本敏感度較低的應用(圖2)。
圖2 高頻寬記憶體運用堆疊的記憶體元件,達成高密度與高I/O數
GDDR與HBM是高效能記憶體市場中的關鍵產品,接著探討主要的市場趨勢。
新市場趨勢與應用層出不窮
在列舉高效能記憶體的應用時,遊戲(Gaming)通常是最先浮現腦海的應用。雖然遊戲的重要性不容小覷,但有些新興的市場趨勢與應用也讓繪圖產業的需求水漲船高(圖3)。
圖3 新興的市場趨勢與應用也讓繪圖產業的需求水漲船高
人工智慧/機器學習與GPU
繪圖處理器(GPU)過去多半僅用於遊戲領域。但是,隨著AI在各產業區塊的爆炸性發展,GPU已是創造價值和效率的利器。GPU普遍都需要高效能的記憶體。機器學習與深度學習訓練所用的演算法需執行複雜的數學及統計運算,而GPU已被證明可較CPU更快解決這些繁雜的計算。在討論AI時,必須區別推論(Inference)和訓練(Training)兩種不同的需求。AI訓練是運算非常密集的工作,系統頻寬越高越好。AI推論則較常見,對頻寬的要求低於AI訓練。訓練與推論都是未來不可或缺的一部分。兩者合併運用下,可創造出高品質的神經網路。GPU及其尖端記憶體正被應用於AI、機器學習和深度學習上,讓這些應用以人類所不及的準確度,解決更多真實世界的難題。
高解析度影片
下一個驅動高效能記憶體成長的是4K/8K內容。高階遊戲不斷推動繪圖技術在高解析度與回應速度上的創新突破(零延遲/零緩衝)。今日許多頂級的遊戲設備均搭載4K解析度,未來更將達到8K或更高解析度。專業的遊戲玩家常同時使用多台顯示器,其中不乏4K+的螢幕(因為工作負載高,對於繪圖卡與大訊框緩衝區的需求也會增加)。
由於影像解析度增加,視訊渲染未來仍需大訊框緩衝區與高頻寬。隨著媒體內容與遊戲的串流應用在全球日益普及,資料中心的資料處理能力也需日漸提升。
遊戲創新
雲端遊戲的運作仰仗資料中心。那些資料中心內的伺服器多搭載GPU,以優化效率。Google Stadia、NVIDIA GeForceNow、PlayStation Now與Microsoft Project xCloud都是近期出爐的一些新型雲端遊戲平台。雲端遊戲預計將快速成長,並持續推動創新。光線追蹤(Ray Tracing)是視覺繪圖領域中夢寐以求的技術。從光源追蹤光線及設計出逼真照明環境的能力,一直是繪圖產業在過去20多年間努力的目標。在NVIDIA和AMD最新的繪圖卡產品,以及即將上市的PlayStation 5與Xbox Series X遊戲機上,這種渲染技術終於落地。
PC遊戲正驅策遊戲市場中頂級規格的發展。由於PC可每年或更頻繁地更新硬體,專業玩家普遍偏愛PC遊戲。PC遊戲持續帶動繪圖功能強化(4K/8K、光線追蹤與可變速率著色),以及對於最高回應時間(最低緩衝/延遲時間)的需求。如上面關於高解析度影像的討論,專業遊戲玩家有時會同時使用多台最高規格的顯示器;在這樣的配置下,玩家需不斷更新系統,才能保持競爭力。
為了達到最佳效能,玩家傾向選用內建不只一張繪圖卡、而是搭載多張平行運作繪圖卡的遊戲設備。
AR/VR
無論在PC遊戲或主機遊戲的世界裡,虛擬實境(VR)都已是許多不同遊戲的熱門選項。從早期較簡單的型態開始,VR繪圖技術和功能現正突飛猛進,並滲透至諸多新領域中。隨著品質精進,遊戲將繼續以健康的速度成長,但更亮眼的成長將來自一些令人振奮的新領域。
在醫療產業中,VR和擴增實境(AR)都可望成為教育訓練的利器。目前,已經有些有趣的應用(運用AR)將虛擬物件融入真實環境,以輔助醫療教學。如美光繪圖卡解決方案不局限於遊戲領域,將觸角延伸到垂直產業,包括專業繪圖、高效能運算、車載應用與網路等。
建築、工程與建造是VR與AR顯而易見的下一波灘頭堡。對許多領域來說,能夠在實地參訪或建構實體建物前,先虛擬地「看到」或甚至遊覽某地或建築、並了解物件將如何與所在環境互動,前景都令人倍感期待;教育領域的VR與AR的應用可望大幅成長。與醫療訓練一樣,講師和專家在教學中也可運用虛擬物件、提供虛擬的範例和與虛擬元素互動。
高階AR與VR頭戴裝置需搭配強大的PC和繪圖卡,才能達到最高設備規格。HTC Vive Pro最低規格的顯卡是NVIDIA GeForce GTX 1060或AMD...
賽靈思新型Virtex UltraScale+ 支援高速傳輸與高頻寬記憶體
賽靈思(Xilinx)宣布Virtex UltraScale+系列產品再添新成員—VU57P FPGA。這是一款新型高頻寬記憶體(HBM)元件,能夠在極快速度、低延遲和低功耗需求下傳輸大量資料,同時融合了一系列適用於資料中心及有線與無線通訊中的眾多應用。
與DDR4等分離式標準型記憶體(Discrete Commodity Memories)相比, VU57P FPGA的記憶體頻寬和容量大幅提高,是延遲敏感型工作負載的優良選擇。它整合低功耗運算力與高達460GB/s的記憶體頻寬和容量,同時採用最先進的PAM4高速收發器,與主流25G收發器相比可實現兩倍的傳輸速率。整合的HBM控制器和AXI埠交換器可提供對整個16G HBM記憶體連續存取。
HBM FPGA的特別之處在於整合AXI埠交換器,可從任意AXI埠存取任意的記憶體位置,節省25萬個查找表、37萬個正反器和超過4W的功耗。該交換器不但能夠縮小設計尺寸、簡化設計,而且還有助於達成時序收斂、加快產品的上市速度並降低營運成本(OPEX)。此外,此款新元件還整合了高速連接,如採用RS-FEC模組的100G乙太網路、150G Interlaken、PCIe Gen4等,協助簡化設計工作並加快上市速度。
聚焦AI加速器需求 格羅方德12LP+ FinFET製程準備量產
格羅方德(Globalfoundries)日前宣布,旗下最先進的FinFET解決方案「12LP+」已通過技術驗證,準備投入生產。
格羅方德的差異化「12LP+」解決方案主要針對AI訓練以及推論應用進行優化。本解決方案建立於驗證過的平台上,具有強大的製造生態系統,可為晶片設計師帶來高效能的開發體驗,及快速的上市時間。
為達到性能、功耗和面積的無懈組合,12LP+導入了若干新功能,包含更新後的標準元件庫、用於2.5D封裝的中介板,與一個低功耗的0.5V Vmin SRAM記憶單元,以支援AI處理器與記憶體之間的低延遲和低功耗數據往複,得到專為符合快速增長之AI市場的特定需所制定的半導體解決方案。
格羅方德資深副總裁兼運算暨有線基礎架構部總經理Amir Faintuch表示,AI會成為我們有生之年最具顛覆性的技術。越發明顯的是,AI系統的效能,特別是能運用一瓦的功率執行多少次運作,成為企業決定投資數據中心或頂尖AI應用的關鍵因素之一。我們的全新12LP+解決方案能夠直接處理這項挑戰,而AI正是本解決方案在進行設計以及優化時,不變的初衷。
12LP+建立在格羅方德14nm/12LP平台基礎上,早已出貨超過100萬個晶圓。許多公司包含Enflame和Tenstorrent等,都將格羅方德的12LP用於AI加速器相關應用。藉由與AI客戶緊密合作並互相學習,格羅方德開發出12LP+解決方案,為AI產業中的設計師提供更大的差異性以及更高的價值,並將開發及生產成本降至最低。
12LP+性能得以增強的特點包括:與12LP相比,將SoC級的邏輯性能提高20%,而在邏輯晶片尺寸方面則縮小10%。這些進階功能是透過12LP+的新一代標準元件庫加以達成,其中包含性能驅動的面積優化組件、單一Fin單元、新的低壓SRAM記憶單元以及改良版類比佈局設計規則。
格羅方德的AI設計參考套件及其協同開發、封裝和晶圓生產後續統包服務,增強了格羅方德12LP+專業應用解決方案的能力。在設計低功耗、經濟實惠且針對AI應用進行優化的電路時,更共同提供絕佳的整體體驗。格羅方德與生態系統夥伴間的緊密合作,亦造就了符合成本效益的開發費用,並縮短了上市時間。
除了12LP現有的IP產品組合之外,格羅方德亦將擴展12LP+的驗證範圍,藉此將PCIe 3/4/5和USB 2/3併進主機處理器。此外,也將HBM2/2e、DDR/LPDDR4/4x和GDDR6納入外部記憶體和晶片間互連技術,使設計師和客戶往小晶片架構發展。
格羅方德的12LP+解決方案已通過技術驗證,目前已準備在紐約州馬爾他的Fab 8進行生產,預計在2020下半年進行試產。格羅方德先前已宣布,將使Fab 8符合美國國際武器貿易條例(ITAR)標準和出口管制條例(EAR)於今年底生效的管制措施,透過這項舉措為Fab 8所生產的國防相關應用、裝置或組件提供機密性和完整保護。
三星再發全新12層3D-TSV封裝技術鞏固市場優勢
3D封裝技術再現新突破。三星(Samsung)近日宣布,該公司已經開發出業界首個12層三維矽穿孔(3D-TSV)封裝技術。3D-TSV技術(尤其是12層)被認為是現今大規模量產高性能晶片所面臨的巨大挑戰之一,因為需要極高的精度才能通過擁有60,000多個TSV孔、以3D封裝垂直互聯的12個DRAM晶片。
三星電子測試與系統封裝執行副總裁Hong-Joo Baek表示,隨著各種新時代的應用不斷興起,像是人工智慧(AI)、高性能運算(HPC)等,能提升記憶體性能的封裝技術變得越來越重要,也越來越複雜。同時,隨著摩爾定律的擴展逐漸達到極限,預計3D-TSV技術的效用在未來將更加重要與關鍵,而該公司希望在此一領域一直維持在領先地位。
據悉,12層3D-TSV封裝技術的厚度與當前8層第二代高頻寬顯示記憶體(HBM2)相同,這在元件設計上是一大進步,因對客戶而言意味著可行更高容量、更高性能的設計,而毋須大幅改變系統架構設計。此外,透過3D封裝技術,將可使晶片間的資料傳輸時間更明顯的縮短,在明顯提高資料傳輸速度的也降低功率損耗。
總而言之,依靠新研發的12層3D-TSV 技術,三星將可為資料密集、高速傳輸等應用提供效能更高的DRAM;而且,透過將堆疊層數從8個增加至12個,三星將能在很短的時間內大量生產24GB高頻寬記憶體(容量為目前是市場上8GB高頻記憶體的3倍)。另一方面,三星也希望憑藉12層3D-TSV技術,滿足快速成長的大容量HBM市場需求,並同時希望該公司在高階半導體/記憶體市場的競爭優勢。
三星研發12層3D-TSV封裝技術,再強化晶片效能。