- Advertisement -
首頁 標籤 記憶體

記憶體

- Advertisment -

第四季記憶體仍供過於求 整體均價將下跌近一成

根據TrendForce旗下半導體研究處表示,第四季記憶體產業(包含DRAM與NAND Flash)仍處於供過於求態勢,雖然近期華為受到禁令影響,促使其他智慧型手機品牌積極拉貨,進而分食華為失去的市場份額,然此動能仍無法改善目前疲弱的市況,加上伺服器需求尚未明顯復甦,預期第四季整體價格將持續走弱,季跌幅約10%。 1Q20~1Q21記憶體價格走勢 以DRAM來說,市場最關注的焦點落在占消耗量大宗的行動式記憶體與伺服器記憶體領域。行動式記憶體方面,華為(Huawei)提前拉貨使三大供應商原先的庫存壓力得以迅速舒緩,而小米、OPPO、Vivo急於備料則讓相關零組件價格受到支撐,預估第四季跌幅約為0~5%。伺服器記憶體方面,目前雲端與企業用伺服器客戶庫存普遍偏高,價格仍有進一步下探空間,預估其第四季均價跌幅約15%。主流模組32GB的售價也將在年底接近上一個跌價週期的低點,來到100~110美元區間。預估第四季DRAM整體均價跌幅約為10%。 以NAND Flash來說,雖然需求面同樣受到品牌提前拉貨支撐,然而供給位元數與現有庫存皆處於高檔,導致供過於求態勢較DRAM顯著。受惠於當前中國智慧型手機品牌積極拉貨,第四季eMMC與UFS類別跌幅縮小至約3~7%;wafer端則因供給持續增加,續跌近兩成。而SSD方面,主要受到伺服器客戶拉貨動能疲弱影響,enterprise SSD均價將下跌10~15%。預估第四季NAND Flash整體均價跌幅約一成。 另外,具備指標意義的現貨市場在九月中後再度轉弱,雖然在DRAM與NAND Flash的交易內,低價位的產品供貨較少,然而中高價位的產品也未有明顯交易量,導致整體市場動能萎縮。展望2021年第一季,DRAM將受惠於備貨需求使跌幅大為收斂,而NAND Flash由於供應商眾多及供給位元仍處於高水位,價格恐進一步走弱,跌幅將擴大至15%。
0

整合多階/類比記憶體運算 AI邊緣功耗難題迎刃而解

雖然使用者可以享受到這些AI應用帶來的益處,但同時仍有隱私、功耗、延遲和成本等諸多疑慮,這些疑慮便成為AI 應用的挑戰。如果有一個能夠從資料來源,執行部分/全部運算(推論)的本地處理引擎,那麼這些問題即可迎刃而解。傳統數位神經網路的記憶體存在功耗瓶頸,難以實現這一目標。為了解決此問題,可以將多階記憶體與類比記憶體內運算方法結合使用,使處理引擎滿足更低的毫瓦級(mW)到微瓦級(μW)功率要求,進而在網路邊緣執行AI推論。 雲端AI面臨隱私/功耗/延遲挑戰 如果透過雲端引擎為AI應用提供服務,使用者必須主動/被動上傳一些資料到雲端,運算引擎則在雲端處理資料並提供預測,然後將預測結果發送給終端用戶使用。以下概述資料處理過程面臨的挑戰(圖1): 1.隱私問題:對於Always-on、Always-aware設備,個人資料或機密資訊在上傳期間或在資料中心保存期限期間可能遭受濫用的風險。 2.不必要的功耗:如果每個資料位元都傳輸到雲端,則硬體、無線電、傳輸裝置以及雲端中不必要的運算都會消耗電能。 3.小批量推論的延遲:如果資料來自邊緣裝置,有時至少需要一秒才能收到雲端系統的回應。當延遲超過100毫秒時,人們便有明顯感知,造成不佳的用戶體驗。 4.資料經濟需要創造價值:感測器隨處可見且價格低廉,能夠蒐集大量資料,但是如果每筆資料都上傳到雲端進行處理的效益不高。 圖1 從邊緣到雲端的資料傳輸 要使用本地處理引擎解決這些挑戰,首先必須針對目標使用案例,利用指定資料集合對執行推論運算的神經網路進行訓練。這通常需要高效能運算和記憶體資源,以及浮點運算。因此,機器學習解決方案的訓練部分仍需在公共、私有雲或本地GPU、CPU和FPGA Farm上實現,同時結合資料集合來生成最佳神經網路模型。神經網路模型的推論運算不需要反向傳播,因此在該模型準備就緒之後,可利用小型運算引擎針對本地硬體進行深度優化。推論引擎通常需要大量乘積累加運算(Multiply Accumulate, MAC)引擎,隨後是啟動層,例如修正線性單元(ReLU)、Sigmoid函數或雙曲正切函數,具體取決於神經網路模型複雜度,以及各層之間的池化層。 大多數神經網路模型需要大量MAC運算。例如,即使是相對較小的「1.0 MobileNet-224」模型,也有420萬個參數(權重),執行一次推論需要多達5.69億次的MAC運算。此類模型中的大多數都由MAC運算主導,因此這裡的重點是機器學習計算的運算部分,同時還要尋找機會來建立更好的解決方案。圖2為一個簡單的完全連接型兩層網路。輸入神經元(資料)透過第一層權重處理。第一層的輸出神經元透過第二層權重處理,並提供預測,例如模型能否在指定影像中找到貓臉 。 圖2 完全連接的兩層神經網路 這些神經網路模型使用「點積」運算計算每層中的每個神經元,如下面的公式所示: Yi=∑i Wi Xi 〗 (為簡單起見,公式中省略了「偏差」項)。 在數位神經網路中,權重和輸入資料儲存在DRAM/SRAM中。權重和輸入資料需要移至某個MAC引擎旁以進行推論。根據圖3,採用這種方法後,大部分功耗都源自於獲取模型參數以及將資料登錄到實際發生MAC運算的ALU。從能量角度來看,使用數位邏輯閘的典型MAC運算消耗約250fJ的能量,但在資料傳輸期間消耗的能量超過運算本身兩個數量級,達到50皮焦(pJ)到100pJ的範圍。實際上,很多設計技巧可以大幅減少記憶體到ALU的資料傳輸,但整個數位方案仍受馮紐曼架構的限制。這意謂著,有大量的機會可以減少功率浪費。如果執行MAC運算的能耗可以從約100pJ減少到若干分之幾pJ,將產生什麼樣的可能性? 圖3 機器學習運算中的記憶體瓶頸 消除記憶體瓶頸並降低功耗 如果記憶體本身可用來消除之前的記憶體瓶頸(圖3),則在邊緣執行推論相關的運算就成為可行方案。使用記憶體內運算的方式,可以大幅減少必須移動的資料量,也就能消除資料傳輸期間浪費的能源。快閃記憶體單元運行時產生的主動功率消耗較低,在待機模式下幾乎不消耗能量,因此可以進一步降低能耗。 以Microchip子公司Silicon Storage Technology(SST)的memBrain技術為例,該解決方案奠基於SST的SuperFlash記憶體技術,這項技術已成為適用於微控制器和智慧卡應用的多階記憶體的公認標準。此解決方案內建一個記憶體內運算架構,允許在儲存權重的位置完成運算。權重毋需資料移動,只有輸入資料需要從輸入感測器,例如相機和麥克風,移動到記憶體陣列中,因此消除了MAC運算中的記憶體瓶頸。 這種記憶體概念基於兩大基本原理:一是電晶體的類比電流回應基於其臨界值電壓(Vt)和輸入資料,二則是基爾霍夫電流定律,即在某個點交匯的多個導體網路中,電流的代數和為零。瞭解這種多階記憶體架構中的基本非揮發性記憶體(NVM)位元單元也十分重要。圖4是兩個ESF3(第3代嵌入式SuperFlash)位元單元,帶有共用的抹除閘(EG)和來源線(SL)。每個位元單元有五個終端:控制閘(CG)、工作線(WL)、抹除閘、來源線和位元線(BL)。透過向EG施加高電壓執行位元單元的抹除操作,同時向WL、CG、BL和SL施加高/低電壓偏置訊號來執行程式設計操作,並且向WL、CG、BL和SL施加低電壓偏置訊號以執行讀取操作。 圖4 SuperFlash ESF3單元 採用這種記憶體架構,用戶可以透過微調程式設計操作,以不同Vt電壓對記憶體位元單元進行程式設計。記憶體技術利用智慧演算法調整記憶體單元的浮柵(FG)電壓,以從輸入電壓獲得特定的電流回應。根據最終應用的要求,可以在線性區域或閾下區域對單元進行程式設計。 圖5說明了在記憶體單元中儲存多個電壓的功能。例如,如果要在一個記憶體單元中儲存一個2位元整數值,需要使用4個2位元整數值(00、01、10、11)中的一個,進行記憶體陣列中,每個單元的程式設計。此時需要使用四個具有足夠間隔的可能Vt值之一,對每個單元進行程式設計。圖5的四條IV曲線分別對應於四種可能的狀態,單元的電流回應取決於向CG施加的電壓。 圖5 ESF3單元中的程式設計Vt電壓 受訓模型的權重透過程式設計設定為記憶體單元的浮柵Vt,因此,受訓模型每一層,例如完全連接層的所有權重,都可以在類似矩陣的記憶體陣列上進行程式設計(圖6)。對於推論運算,數位輸入,如數位麥克風,首先利用數位類比轉換器(DAC)轉換為類比訊號,然後應用到記憶體陣列。隨後該陣列對指定輸入向量並存執行數千次MAC運算,產生的輸出隨即進入相應神經元的啟動階段,隨後利用類比數位數轉換器(ADC)將輸出轉換回數位訊號。然後,這些數位訊號在進入下一層之前進行池化處理。 圖6 用於推論的權重矩陣記憶體陣列 這類多階記憶體架構模組化程度非常高,而且十分靈活。許多記憶體晶片可以結合在一起,形成一個混合了權重矩陣和神經元的大型模型(圖7)。在此案例中,M×N晶片配置透過各晶片間的類比和數位介面相互連接。 圖7 memBrain的模組化結構 截至目前,文章主要討論了該架構的晶片實施方案。提供軟體發展套件(SDK)可幫助開發解決方案,除了晶片外,SDK還有助於推論引擎的開發。SDK流程與訓練框架無關。用戶可以在提供的所有框架,包含TensorFlow、PyTorch等框架中,根據需要使用浮點運算創建神經網路模型(圖8)。創建模型後,SDK可協助量化受訓神經網路模型,並將其映射到記憶體陣列。在該陣列中,可以利用來自感測器或電腦的輸入向量執行向量矩陣乘法。 圖8 memBrain SDK流程 多階記憶體方法結合記憶體內運算功能的優點包括: 1.較低功耗:專為低功耗應用設計的技術。功耗方面的第一個優點是,這種解決方案採用記憶體內運算,因此在運算期間,從SRAM/DRAM傳輸資料和權重不會浪費能量。功耗方面的第二個優點是,快閃記憶體單元在臨界值模式下以較低的電流運行,因此主動功率消耗非常低。第三個優點是待機模式下幾乎沒有能耗,原因是非易失性記憶體單元不需要任何電力即可保存始終開啟設備的資料。這種方法也非常適合在權重和輸入資料的稀疏性時加以利用,如果輸入資料或權重為零,則記憶體位元單元不會啟動。 2.減小封裝尺寸:該技術採用分離柵(1.5T)單元架構,而數位實施方案中的SRAM單元基於6T架構。此外,與6T SRAM單元相比,這種單元是小得多。另外,一個單元即可儲存完整的4位元整數值,而不是像SRAM單元那樣需要4×6=24個電晶體才能實現此目的,從根本減少晶片上占用的空間。 3.降低開發成本:由於記憶體效能瓶頸和馮紐曼架構的限制,很多專用設備,例如NVIDIA的Jetsen或Google的TPU,趨向於透過縮小幾何結構提高每瓦效能,但這種方法解決邊緣運算難題的成本卻很高。採用將類比記憶體內運算與多階記憶體結合的方法,可以在快閃記憶體單元中完成晶片運算,這樣便可使用更大的幾何尺寸,同時降低掩膜成本(Mask Cost)和縮短開發週期。 邊緣運算應用的前景十分廣闊,然而,首先需要解決功耗和成本方面的挑戰,邊緣運算才能得到發展機會。使用能夠在快閃記憶體單元中執行晶片上運算的記憶體方法,可以消除主要障礙。這種方法利用經生產驗證的公認標準類型多階記憶體技術解決方案,且此方案已針對機器學習應用進行優化。 (本文作者為Microchip嵌入式記憶體產品開發總監)
0

美光推高速限量版電競記憶體模組

美光(Micron) 旗下的電腦記憶體和儲存方案品牌Crucial,日前宣布推出其限量版Crucial Ballistix MAX 5100電競記憶體。此最新產品為Crucial Ballistix系列產品的獲獎傳統拓展而來,為消費者提供了一個最佳的選項,速度媲美迄今市面上最快的電競記憶體。 Crucial Ballistix 是電競記憶體中結合晶粒級 (die level) 自訂調校的唯一品牌,締造破世界紀錄的效能。近期有位超頻愛好者用相同的電競記憶體模組達到極快速度 6,666MT/s,是DDR4模組有史以來最快的速度,而這項創紀錄的頻率和 CPU-Z 驗證的螢幕截圖已經公布在 HWBOT。如同美光於企業及個人運算良好的產品和解決方案,Crucial 電競記憶體是根據需求量身打造、唯一垂直整合的電競記憶體:從設計、編程和製造,皆在美光內部完成。此特色讓競爭對手望塵莫及,使新的5100MT/s 模組能為重度遊戲玩家提供超越想像的速度,並帶給超頻愛好者較佳的體驗。 美光消費產品事業群副總裁暨總經理Teresa Kelley表示,該公司推出DDR4,亦首創搭載LED的電競記憶體,現在我們透過最新Crucial Ballistix 記憶體實現更高的訊框率和更好的系統效能,給予遊戲玩家更流暢的遊戲體驗。此最新的記憶體速度再次證明團隊的專業,帶來世界一流、創新高效能的電競產品。 限量的Crucial BallistixMAX 5100 模組將在發布時生產並提供 16GB...
0

中國今明兩年將成全球最大半導體設備市場

國際半導體產業協會(SEMI) 22日於年度美國國際半導體展(SEMICON West)公布年中整體OEM半導體設備預測報告(Mid-Year Total Semiconductor Equipment Forecast–OEM Perspective),預估2020年全球原始設備製造商(OEM)之半導體製造設備銷售總額相較2019年的596億美元將增長6%,來到632億美元,2021年營收更將呈現兩位數強勢成長,創下700億美元的歷史紀錄。 這波支出走強由多個半導體產業類別的成長所帶動。晶圓廠設備(含晶圓加工、晶圓廠設施和光罩設備)預計2020年將成長5%,接著受惠於記憶體支出復甦以及先進製程和中國市場的大額投資,2021年將大幅上升13%;而佔晶圓製造設備總銷售約一半的晶圓代工和邏輯製程支出2020年及2021年也將維持個位數穩定增長。DRAM和NAND Flash記憶體2020年支出將超過2019年的水平,這兩個記憶體類別在2021年成長幅度也將分別超越20%。  
0

美國半導體需求一枝獨秀 市場規模暴增近13%

據WSTS預估,美國將成為2020年全球半導體銷售金額成長速度最快的區域市場,預估銷售金額將達到886.94億美元,比2019年成長12.8%;歐洲、日本的半導體銷售金額,則衰退4.1%與4.4%。作為全球最大的半導體區域市場,亞太區的半導體銷售金額將成長2.6%,勉力保持正成長。 一般認為,美國半導體市場之所以能在COVID-19疫情下,繳出爆發成長的成績單,跟2019年基期較低,以及疫情帶動雲端服務、遠距工作等應用蓬勃發展,導致伺服器需求大增有關。跟伺服器有關的微處理器、記憶體元件銷售金額,都比2019年成長,特別是記憶體。 由於伺服器記憶體單價較高,在市場需求熱絡的情況下,一定程度上抵銷了手機記憶體需求不振的負面影響。WSTS預估,2020年全球記憶體市場規模將比2019年成長15%,遠高於全球半導體市場規模的成長速度。  
0

愛德萬新記憶體測試機瞄準全球DDR/DRAM需求

半導體測試設備領導供應商愛德萬測試(Advantest)發表最新多功能、高產能H5620記憶體測試機,能針對低功耗雙存取同步動態隨機存取記憶體(DRAM和LPDDR)裝置進行預燒及記憶體單元測試。 愛德萬測試記憶體自動化測試設備事業群副總Takeo Miura表示,這款測試機兼顧優異生產力與低廉測試成本,為檢驗現今最新DRAM元件的測試標準樹立新標竿。 5G技術時代來臨,全球DRAM位元消耗預估將在2023年近乎翻倍,而此波需求成長背後的主要推手,正是持續成長的資料處理和行動通訊市場,不僅資料中心要求更多記憶體,智慧型手機解析度升級、新增摺疊功能和多鏡頭設計等也是原因。隨著記憶體IC平均售價持續縮水,半導體製造廠不可免的需要另闢蹊徑,縮減測試成本、擴大產量。 愛德萬測試最新測試系統,能夠滿足這樣的需求。H5620在生產環境中,能以100-MHz頻率和高達200Mbps的資料傳輸率,平行測試超過1.8萬個元件。此外,H5620能因應工廠自動化需求,還有具備個別熱控制穩定度的雙溫箱結構,支援從-10°C到150°C大溫度範圍測試。 不僅如此,新系統結合原有記憶體單元測試與記憶體生產設備的預燒測試流程,不僅有助客戶降低資本支出,也能節省工廠空間。 H5620使用具備多元工具組合的FutureSuite作業系統。有了這套軟體,測試機很容易能與愛德萬測試原本的記憶體測試系統相容。另外,愛德萬測試全球支援網也能立即提供客戶在程式編碼、除錯、關聯性分析和維修等方面的協助。
0

華邦推新Octal NOR Flash高速/低成本方案

華邦電子日前宣布推出新型高速OctalNAND Flash產品,可望使高容量Serial NAND Flash成為當前Octal NOR Flash可行的低成本替代方案。 華邦電子經理黃信偉表示,新型OctalNAND Flash將不可能化為可能,認為華邦車用與工業市場的客戶,只需支付Octal NOR Flash一部分的費用,便能在1Gb至4Gb容量裝置上獲得每秒240MB讀寫效能。 首款採用x8 Octal介面的NAND Flash—華邦OctalNAND Flash產品可望提供車用電子與工業製造商高容量的儲存記憶體產品,毋須屈就成本,砸大錢購買NOR Flash。眾所周知,NOR Flash在512Mb以上的儲存容量成本擴充效益不佳。 華邦電子首款採用1Gb W35N01JW全新介面的產品,連續讀取速度最高可達每秒240MB,相較華邦先前發表的高效能W25N-JW QspiNAND Flash系列產品,速度高出3倍,相較市面上一般的Quad Serial NAND Flash產品,讀取速度更是快了將近10倍。 W35N-JW OctalNAND Flash採用華邦通過驗證的46nm SLC NAND製程,提供卓越的資料完整性,且資料保存期更可達10年以上。此產品寫入/抹除次數(Program/Erase...
0

調研:三星穩坐晶圓製造龍頭 前五大占全球產能53%

市場調研機構IC Insights日前發布2020至2024年全球晶圓產能預估報告,根據當前排名,三星以15%獨占鰲頭,台積電則以12.8%緊追其後。至於前五名依序為三星、台積電、美光(Micron)、SK海力士(SK Hynix)以及鎧俠(Kioxia,原為東芝)。 全球前五大晶圓製造商的總產能超過全球總量的半數。 該機構釋出的報告揭示截至2019年12月全球25大晶圓廠的排名,其中前五大晶圓廠總產能占全球晶圓產能53%,且每月皆生產超過100萬片晶圓,相較之下2009年前五大晶圓廠僅占全球總產能36%。至於其他大廠如英特爾、聯電、格羅方德(GlobalFoundries)、德州儀器(TI)和意法半導體(ST)等則紛紛跌至前五名外。 根據統計,三星於全球擁有最大晶圓產能,每月生產超過290萬片晶圓,占全球總產能15%,其中約三分之二用於製造DRAM及NAND快閃記憶體。該公司目前著手於韓國兩處以及中國等三地建造新工廠;居於其後的全球最大晶圓代工廠台積電(TSMC),以月生產250萬片晶圓的產能占全球12.8%,並計畫持續於台中及台南各新建一座晶圓廠。 歸功於在新加坡新設12吋晶圓廠,使2019年產能提升,美光以9.4%的產能占據全球第三名,每月生產約180萬餘片晶圓。該公司還收購了位於猶他州的IM Flash合資工廠中的英特爾股份,並計畫2020年於美國維吉尼亞州建第二家晶圓廠;排名第四的SK海力士將其超過80%的產能投入DRAM和NAND快閃記憶體晶片製造,月生產180萬片晶圓,占全球總產能8.9%。該公司於2019年分別於韓國及中國新建晶圓廠,之後將持續於韓國利川開設新晶圓廠 Flash記憶體供應商鎧俠則以140萬片晶圓的產能擠進第五名,占全球總量7.2%。同時該報告亦指出,晶圓製造前五大純晶圓代工廠台積電、格羅方德、聯電、中芯國際(SMIC)和力積電均躋身全球產能前12名,以月產480萬片的總量占全球總產能的24%。
0

布局5G手機市場 美光LPDDR5 DRAM開始量產

美光科技(Micron)日前宣布首批量產的LPDDR5 DRAM已正式出貨,並搭載於即將上市的小米Mi 10智慧型手機中。該公司提供的LPDDR5 DRAM擁有良好能耗效率以及更快的資料存取速度,能因應消費者對智慧型手機人工智慧(AI)和5G功能日益成長的需求。 美光推LPDDR5 DRAM加速布局5G智慧手機版圖。 美光行動事業部資深副總裁暨總經理Raj Talluri博士表示,美光搶先推首款用於智慧型手機中的LPDDR5 DRAM產品,將能加速實現5G與AI應用。該公司的顧客與合作夥伴需要最新製程技術的次世代記憶體解決方案,這項解決方案將能驅動低功耗與高效能支援5G與AI系統的發展。美光的LPDDR5 DRAM能夠因應這些需求,新品較前一代提升50%的資料存取速度以及提升超過20%的能源效率。 人工智慧廣泛運用在各式應用的趨勢使先進記憶體解決方案需求持續增加,這些解決方案能提供更快速且更有效率的資料存取方式。美光LPDDR5能提供手機處理器內建的AI引擎所需的傳輸速度與容量,這種處理器仰賴該公司新記憶體的高資料傳輸速率,以進一步驅動其機器學習的能力。同時該產品能夠因應各種包括汽車業、客戶端電腦、專為5G和AI應用打造的網路系統等市場對於更高記憶體效能與更低功耗日益成長的需求。相較於LPDDR4x記憶體,LPDDR5能減少超過20%的功耗。 美光本次推出的記憶體將會搭載於小米即將上市的新手機。 5G網路將於2020年起於大規模部署,本次推出的記憶體便是為了滿足5G網路的需求而設計,能讓5G智慧型手機以6.4Gbps的峰值速度處理資料,這對避免5G資料瓶頸來說極為重要。這項功能可解決其它新興技術需求,例如汽車應用需要有更高頻寬的記憶體子系統支援即時運算與資料處理。
0

緩解資料移動/存取瓶頸 HBM大幅加速AI應用

本文將以賽靈思(Xilinx)旗下解決方案為例,透過深度學習和資料庫加速的案例,闡述一個均衡且支援三星HBM2的賽靈思運算加速器系統,如何提供具備最佳靈活性、效率和效能的高效運算加速解決方案。 近年異質運算逐漸興起,拓寬了後摩爾定律時代在加速運算密集型作業負載的創新。在當前資料中心產業中,普遍採用異質運算進行加速的作業負載種類繁多,包含人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一小部分。 然而,長期以來,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年裡,並行記憶體介面的頻寬效能雖有改善但進展緩慢;現今FPGA所支援的最大DDR4資料速率仍然只有2008年DDR3的2倍左右。相比之下,自2008年以來,FPGA的運算能力已提高了近8倍,且隨著配有AI核心的Versal元件推出後,預計未來兩年內還有更大的成長空間。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型作業負載發展的主要限制因素(圖1)。 圖1 運算容量的提升與DDR頻寬的改善比較 HBM效能/傳輸更高更快 HBM是一種高速的系統級封裝(SiP)記憶體技術,與採用傳統打線接合封裝(Wire Bonding-based Package)的記憶體產品相比,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,來達到更大的儲存容量與更高的資料頻寬。聯合電子裝置技術協會(JEDEC)在2013年開始採用初代HBM標準,並在2016年1月批准第二代HBM2版本為業界標準。 HBM2標準支援4個或8個8Gb的DRAM晶粒逐個堆疊在一起,由一個2.5D矽「中介層」提供支援,該「中介層」可將記憶體堆疊與底層電路板連接起來。堆疊一些晶粒(通常是記憶體)而不是其他晶粒(通常是處理器)的多晶片封裝被稱為2.5D元件(圖2)。 圖2 HBM和2.5D架構 由於多個堆疊能被添加在同一個封裝中,因此與傳統的多晶片DRAM產品相比,當堆疊多個晶粒在一個電路板上並將其堆疊得更緊密時,可以大幅減少HBM記憶體封裝的水平占板面積。此外,HBM技術還縮短了訊號在元件之間的傳輸距離,因此可以提高系統效能,且較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。 圖3 HBM晶粒堆疊技術 HBM具備先進的TSV技術、微尺度互連和突破極限的I/O數量,可以增加記憶體頻寬,與其最強勁的競爭對手,也就是用於繪圖卡的繪圖用雙倍資料傳輸率(GDDR)記憶體相比,HBM明顯能提供更高的效能。在元件級別,單個三星HBM立方體可以提供高達307GB/s的資料頻寬,比GDDR5晶片高出近10倍的資料傳輸率。而在系統級別,與採用GDDR的解決方案相比,HBM能提供近3倍的輸送量,並使用少於80%的功耗,同時還可以節省寶貴的電路空間(圖4)。 圖4 HBM與GDDR頻寬比較 FPGA元件助力 記憶體頻寬再上層樓 以下將以賽靈思旗下FPGA產品為例,該公司支援HBM的Virtex UltraScale+ FPGA大幅改善了記憶體頻寬,例如2個三星HBM2記憶體堆疊就可提供高達460GB/s的速率。當將1或2個HBM2堆疊與各種尺寸的FPGA邏輯(多達285萬個邏輯單元)和DSP(高達9,024個DSP48E2分割,可提供28.1峰值INT8 TOP)進行配對時,使用者就可以選擇搭配全新支援HBM的UltraScale+元件系列,為其應用選擇最佳的運算能力與記憶體頻寬/容量組合。 另一方面,除了支援HBM的Virtex UltraScale+FPGA,賽靈思還推出Alveo U280資料中心加速器卡,由16奈米UltraScale+架構所打造,採用8GB三星HBM2,可為資料庫搜尋與分析、機器學習推論及其他記憶體限制應用提供更高等級的加速功能;並涵蓋了CCIX支援,可以利用現有的伺服器互聯基礎設施和即將推出的CCIX處理器,提供高頻寬、低延遲的快取一致性共用記憶體存取。許多受限於記憶體的應用都能受益於支援HBM的UltraScale+元件,本文將以深度神經網路與資料庫加速方面的案例為例,展示支援HBM的UltraScale+元件之優勢。 強化記憶體頻寬提升AI語言翻譯效能 如今,各種雲端應用都有提供自動即時語言翻譯服務,其可透過採用神經網路的機器學習方法在兩種語言之間翻譯語句(稱為機器翻譯),編碼器-解碼器架構強化當今的商業自動化翻譯服務。 在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以透過向量進行量化建模和反映。遞迴神經網路、卷積神經網路和基於注意力的模型等架構通常用於執行編碼和解碼功能。 近期研究表示,在語言翻譯中,只有採用注意力的網路能達到最高的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)所構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成,該結構與前饋網路被共同用於建構整個語言翻譯模型的解碼器和編碼器(圖5)。 圖5 轉換器--基於注意力神經網路的語言翻譯模型 如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積運算。這些點積通常被組合到矩陣乘法運算,以達到更高效的運算。然而,與在整個空間中大量重複使用權重參數以減少資料移動痕跡的傳統卷積神經網路不同,這類基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法運算的記憶體頻寬要求要高出許多。 我們建置了一個用於語言翻譯且基於注意力的先進神經網路的轉換器分析模型,並將其映射在UltraScale+元件上運行。FPGA建置方案的架構採用DSP脈動陣列來執行矩陣乘法,中間的啟動資料儲存在晶載URAM中,可以消除啟動時所造成在處理器和外接記憶體之間頻繁進行的資料移動。HBM或DDR則用於儲存所有嵌入字典的單詞嵌入與權重參數。 針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批量大小(B),對其進行分析就可以瞭解附加DDR的UltraScale+元件和支援HBM的UltraScale+元件對於延遲和傳輸量之間的權衡。這一研究對於DDR與HBM的建置,假設使用具有256個16位元輸入和32個16位元輸出的脈動陣列,並將其運行在710MHZ的UltraScale+元件上。詳細的傳輸量與延遲關係圖請見圖6。 圖6 採用具有HBM和DDR4的UltraScale+元件進行語言翻譯效能分析。 長度為8的句子在4條通道上運行的最低延遲約為15.7ms,傳輸量為508符號/秒。一條DDR通道用於存取單詞嵌入資料,其餘三條DDR通道用於載入權重。對於支援HBM的元件而言,一個長度為8的句子之最小延遲為2.2ms,比DDR介面低7倍以上。DDR介面在兩種句子長度上都不能達到7ms以下的延遲,但是支援HBM的元件在傳輸量為10,419符號/秒,且句子長度為8的情況下可達到6.1ms的延遲,在輸送量為4,682符號/秒,且句子長度為16的情況下可達到6.8ms的延遲。 借助通用矩陣運算資料庫加速AI應用 與前面討論的機器翻譯案例一樣,幾乎所有現代深層神經網路(深度學習)的主要運算都是以矩陣乘法的形式來完成。除了機器翻譯以外,在資料中心廣泛部署的其他典型深度學習應用有影像/視訊分析、網路搜尋的搜尋排名系統、廣告投放的推薦系統、內容/來源推薦、語音辨識以及自然語言處理。 為了更佳地支援更多的深度學習應用,賽靈思開發了通用矩陣運算(GEMX)資料庫,用於加速元件上的矩陣運算,該元件由SDAccel開發環境提供支援。該資料庫包括三個組件:引擎庫、主機代碼編譯器與以應用或系統建構的環境,引擎庫則由一組具有BLAS函數介面的C++範本組成,可以在FPGA上進行矩陣運算。 主機代碼編譯器將主機代碼矩陣函式呼叫編譯成一系列指令,用於觸發FPGA上的矩陣運算,建構環境採用GNU make流將FPGA和主機代碼影像生成過程自動化。此外,該產品還支援使用者對系統的各個方面進行配置,例如,FPGA平台、FPGA影像中建置的引擎數量等。 雖然GEMX引擎的兩個輸入矩陣都來自DDR記憶體,但GEMX的傳輸量取決於DDR介面的頻寬。圖7的分析比較了使用DDR4連接UltraScale+元件的GEMX與使用支援HBM的UltraScale+元件的GEMX之效能。該分析模型充分利用了記憶體頻寬,並假設使用32×32×128的矩陣作為GEMX的輸入。結果如圖7所示,與使用4條DDR通道相比,支援HBM的元件可以將GEMX的效能提升約3.6倍。 圖7 GEMX效能 HBM讓記憶體存取/使用更有效 受益於HBM記憶體控制器中的靈活定址方式,支援HBM的UltraScale+元件具備的獨特優勢之一就是HBM通道的靈活並行使用。HBM通道的存取與使用,是能夠完全地被可重配置和重新編程,還可以通過FPGA邏輯輕鬆存取。 如圖8所示,使用者可以將原始資料庫檔案剝離到多個HBM通道中,並讓並行處理運算單元執行不同的資料庫操作,以獨立並行存取資料庫的不同部分而無需進行同步。這一特性有助於改善即時案例中的操作延遲並有效地使用HBM,因為所有運算單元都可以即時回應資料庫查詢,毋須批次處理或同步。在上述機器翻譯案例中,該特性還用於分離兩個通道進行單詞嵌入存取,而其餘通道則用於高頻寬權重參數傳輸。 圖8 靈活的並行記憶體通道存取 雖然三星HBM在AI和資料庫加速等案例中的重要性已得到證實,但還有很多其他的資料中心作業負載也可從HBM中顯著獲益。總而言之,在資料中心領域,隨著異質運算加速的發展趨勢以及運算設備技術的創新,迫切需要在運算單元附近附加像HBM這樣的高效能記憶體系統;而支援HBM的UltraScale+元件具有獨特的價值,以深度學習和資料庫加速為例,賽靈思支援HBM的UltraScale+元件就發揮出運算加速的新潛力,並將其引領至更高的水準。 (本文由賽靈思提供)
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -