- Advertisement -
首頁 標籤 UltraScale

UltraScale

- Advertisment -

緩解資料移動/存取瓶頸 HBM大幅加速AI應用

本文將以賽靈思(Xilinx)旗下解決方案為例,透過深度學習和資料庫加速的案例,闡述一個均衡且支援三星HBM2的賽靈思運算加速器系統,如何提供具備最佳靈活性、效率和效能的高效運算加速解決方案。 近年異質運算逐漸興起,拓寬了後摩爾定律時代在加速運算密集型作業負載的創新。在當前資料中心產業中,普遍採用異質運算進行加速的作業負載種類繁多,包含人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一小部分。 然而,長期以來,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年裡,並行記憶體介面的頻寬效能雖有改善但進展緩慢;現今FPGA所支援的最大DDR4資料速率仍然只有2008年DDR3的2倍左右。相比之下,自2008年以來,FPGA的運算能力已提高了近8倍,且隨著配有AI核心的Versal元件推出後,預計未來兩年內還有更大的成長空間。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型作業負載發展的主要限制因素(圖1)。 圖1 運算容量的提升與DDR頻寬的改善比較 HBM效能/傳輸更高更快 HBM是一種高速的系統級封裝(SiP)記憶體技術,與採用傳統打線接合封裝(Wire Bonding-based Package)的記憶體產品相比,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,來達到更大的儲存容量與更高的資料頻寬。聯合電子裝置技術協會(JEDEC)在2013年開始採用初代HBM標準,並在2016年1月批准第二代HBM2版本為業界標準。 HBM2標準支援4個或8個8Gb的DRAM晶粒逐個堆疊在一起,由一個2.5D矽「中介層」提供支援,該「中介層」可將記憶體堆疊與底層電路板連接起來。堆疊一些晶粒(通常是記憶體)而不是其他晶粒(通常是處理器)的多晶片封裝被稱為2.5D元件(圖2)。 圖2 HBM和2.5D架構 由於多個堆疊能被添加在同一個封裝中,因此與傳統的多晶片DRAM產品相比,當堆疊多個晶粒在一個電路板上並將其堆疊得更緊密時,可以大幅減少HBM記憶體封裝的水平占板面積。此外,HBM技術還縮短了訊號在元件之間的傳輸距離,因此可以提高系統效能,且較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。 圖3 HBM晶粒堆疊技術 HBM具備先進的TSV技術、微尺度互連和突破極限的I/O數量,可以增加記憶體頻寬,與其最強勁的競爭對手,也就是用於繪圖卡的繪圖用雙倍資料傳輸率(GDDR)記憶體相比,HBM明顯能提供更高的效能。在元件級別,單個三星HBM立方體可以提供高達307GB/s的資料頻寬,比GDDR5晶片高出近10倍的資料傳輸率。而在系統級別,與採用GDDR的解決方案相比,HBM能提供近3倍的輸送量,並使用少於80%的功耗,同時還可以節省寶貴的電路空間(圖4)。 圖4 HBM與GDDR頻寬比較 FPGA元件助力 記憶體頻寬再上層樓 以下將以賽靈思旗下FPGA產品為例,該公司支援HBM的Virtex UltraScale+ FPGA大幅改善了記憶體頻寬,例如2個三星HBM2記憶體堆疊就可提供高達460GB/s的速率。當將1或2個HBM2堆疊與各種尺寸的FPGA邏輯(多達285萬個邏輯單元)和DSP(高達9,024個DSP48E2分割,可提供28.1峰值INT8 TOP)進行配對時,使用者就可以選擇搭配全新支援HBM的UltraScale+元件系列,為其應用選擇最佳的運算能力與記憶體頻寬/容量組合。 另一方面,除了支援HBM的Virtex UltraScale+FPGA,賽靈思還推出Alveo U280資料中心加速器卡,由16奈米UltraScale+架構所打造,採用8GB三星HBM2,可為資料庫搜尋與分析、機器學習推論及其他記憶體限制應用提供更高等級的加速功能;並涵蓋了CCIX支援,可以利用現有的伺服器互聯基礎設施和即將推出的CCIX處理器,提供高頻寬、低延遲的快取一致性共用記憶體存取。許多受限於記憶體的應用都能受益於支援HBM的UltraScale+元件,本文將以深度神經網路與資料庫加速方面的案例為例,展示支援HBM的UltraScale+元件之優勢。 強化記憶體頻寬提升AI語言翻譯效能 如今,各種雲端應用都有提供自動即時語言翻譯服務,其可透過採用神經網路的機器學習方法在兩種語言之間翻譯語句(稱為機器翻譯),編碼器-解碼器架構強化當今的商業自動化翻譯服務。 在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以透過向量進行量化建模和反映。遞迴神經網路、卷積神經網路和基於注意力的模型等架構通常用於執行編碼和解碼功能。 近期研究表示,在語言翻譯中,只有採用注意力的網路能達到最高的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)所構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成,該結構與前饋網路被共同用於建構整個語言翻譯模型的解碼器和編碼器(圖5)。 圖5 轉換器--基於注意力神經網路的語言翻譯模型 如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積運算。這些點積通常被組合到矩陣乘法運算,以達到更高效的運算。然而,與在整個空間中大量重複使用權重參數以減少資料移動痕跡的傳統卷積神經網路不同,這類基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法運算的記憶體頻寬要求要高出許多。 我們建置了一個用於語言翻譯且基於注意力的先進神經網路的轉換器分析模型,並將其映射在UltraScale+元件上運行。FPGA建置方案的架構採用DSP脈動陣列來執行矩陣乘法,中間的啟動資料儲存在晶載URAM中,可以消除啟動時所造成在處理器和外接記憶體之間頻繁進行的資料移動。HBM或DDR則用於儲存所有嵌入字典的單詞嵌入與權重參數。 針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批量大小(B),對其進行分析就可以瞭解附加DDR的UltraScale+元件和支援HBM的UltraScale+元件對於延遲和傳輸量之間的權衡。這一研究對於DDR與HBM的建置,假設使用具有256個16位元輸入和32個16位元輸出的脈動陣列,並將其運行在710MHZ的UltraScale+元件上。詳細的傳輸量與延遲關係圖請見圖6。 圖6 採用具有HBM和DDR4的UltraScale+元件進行語言翻譯效能分析。 長度為8的句子在4條通道上運行的最低延遲約為15.7ms,傳輸量為508符號/秒。一條DDR通道用於存取單詞嵌入資料,其餘三條DDR通道用於載入權重。對於支援HBM的元件而言,一個長度為8的句子之最小延遲為2.2ms,比DDR介面低7倍以上。DDR介面在兩種句子長度上都不能達到7ms以下的延遲,但是支援HBM的元件在傳輸量為10,419符號/秒,且句子長度為8的情況下可達到6.1ms的延遲,在輸送量為4,682符號/秒,且句子長度為16的情況下可達到6.8ms的延遲。 借助通用矩陣運算資料庫加速AI應用 與前面討論的機器翻譯案例一樣,幾乎所有現代深層神經網路(深度學習)的主要運算都是以矩陣乘法的形式來完成。除了機器翻譯以外,在資料中心廣泛部署的其他典型深度學習應用有影像/視訊分析、網路搜尋的搜尋排名系統、廣告投放的推薦系統、內容/來源推薦、語音辨識以及自然語言處理。 為了更佳地支援更多的深度學習應用,賽靈思開發了通用矩陣運算(GEMX)資料庫,用於加速元件上的矩陣運算,該元件由SDAccel開發環境提供支援。該資料庫包括三個組件:引擎庫、主機代碼編譯器與以應用或系統建構的環境,引擎庫則由一組具有BLAS函數介面的C++範本組成,可以在FPGA上進行矩陣運算。 主機代碼編譯器將主機代碼矩陣函式呼叫編譯成一系列指令,用於觸發FPGA上的矩陣運算,建構環境採用GNU make流將FPGA和主機代碼影像生成過程自動化。此外,該產品還支援使用者對系統的各個方面進行配置,例如,FPGA平台、FPGA影像中建置的引擎數量等。 雖然GEMX引擎的兩個輸入矩陣都來自DDR記憶體,但GEMX的傳輸量取決於DDR介面的頻寬。圖7的分析比較了使用DDR4連接UltraScale+元件的GEMX與使用支援HBM的UltraScale+元件的GEMX之效能。該分析模型充分利用了記憶體頻寬,並假設使用32×32×128的矩陣作為GEMX的輸入。結果如圖7所示,與使用4條DDR通道相比,支援HBM的元件可以將GEMX的效能提升約3.6倍。 圖7 GEMX效能 HBM讓記憶體存取/使用更有效 受益於HBM記憶體控制器中的靈活定址方式,支援HBM的UltraScale+元件具備的獨特優勢之一就是HBM通道的靈活並行使用。HBM通道的存取與使用,是能夠完全地被可重配置和重新編程,還可以通過FPGA邏輯輕鬆存取。 如圖8所示,使用者可以將原始資料庫檔案剝離到多個HBM通道中,並讓並行處理運算單元執行不同的資料庫操作,以獨立並行存取資料庫的不同部分而無需進行同步。這一特性有助於改善即時案例中的操作延遲並有效地使用HBM,因為所有運算單元都可以即時回應資料庫查詢,毋須批次處理或同步。在上述機器翻譯案例中,該特性還用於分離兩個通道進行單詞嵌入存取,而其餘通道則用於高頻寬權重參數傳輸。 圖8 靈活的並行記憶體通道存取 雖然三星HBM在AI和資料庫加速等案例中的重要性已得到證實,但還有很多其他的資料中心作業負載也可從HBM中顯著獲益。總而言之,在資料中心領域,隨著異質運算加速的發展趨勢以及運算設備技術的創新,迫切需要在運算單元附近附加像HBM這樣的高效能記憶體系統;而支援HBM的UltraScale+元件具有獨特的價值,以深度學習和資料庫加速為例,賽靈思支援HBM的UltraScale+元件就發揮出運算加速的新潛力,並將其引領至更高的水準。 (本文由賽靈思提供)
0

Xilinx推出16奈米軍規級UltraScale+系列

賽靈思(Xilinx)今日宣布開始供應軍規級XQ UltraScale+ 系列產品,提供延長溫度範圍、強固型封裝及其UltraScale+架構的各項優勢,以因應航太與國防產業的各項需求。XQ Zynq UltraScale+ MPSoCs與RFSoCs,以及XQ UltraScale+ Kintex 與VirtexFPGA等各項新產品是當前業界陣容最完整的高效能可編程晶片,以因應各種嚴苛環境下的應用,這類應用不僅要求最高水準的安全性與可靠度,更注重尺吋、重量,以及功耗(SWaP)等關鍵因素。 XQ UltraScale+產品系列針對航太與國防應用開發先進的單晶片解決方案,透過採用台積電16奈米FinFET製程所提供的高度整合,讓每瓦效能比前一代系統高出至少2倍。 此系列方案包含首個軍規級異質化多處理器SoC元件,結合靈活性與動態重組的高效能可編程邏輯與DSP元件、16Gb/s 與28Gb/s收發器、四核Arm Cortex-A53嵌入式處理器,以及雙核Arm Cortex-R5嵌入式處理器。此外,選配功能包括高速4Gsps ADC與6.4Gsps DAC、Arm Mali-400繪圖處理器、4k60 H.265/H/264視訊編解碼器,以及支援攝氏零下55度到125度溫度範圍與 256位元的物理不可複製函數功能(PUF)的強固型封裝。 新系列中高度整合的可編程SoC具備許多超越其他產品的優勢,例如它廠產品須由客戶自行尋找貨源並使用多顆晶片,而新元件除了顧及各項SWaP考量因素外,同時適合部屬在民用與軍用飛機等應用,以及需要支援延長溫度範圍、嚴苛環境、壽命長,以及最高標準安全性的國防系統。 賽靈思航太與國防部門資深總監David Gamba 表示,憑藉30多年持續專注航太國防產業市場所累積的經驗,我們非常高興能向客戶發表業界最先進的軍規級系列產品。此系列延續我們現有的UltraScale及7系列軍規級產品,帶給客戶多樣化的強大選擇,並支援他們要求最嚴苛的應用。
0

首款AI加速平台出鞘 Xilinx全面擁抱人工智慧

人工智慧AI發展全面展開,可編程邏輯廠商美商賽靈思(Xilinx)認為,未來已經沒有一個架構可以滿足所有的應用需求,因此該公司正式踏上轉型之路,舉辦賽靈思開發者大會(XDF),並發表未來幾年的技術與產品重點,全面擁抱人工智慧的發展趨勢,以資料中心(Data Center)為發展策略的起點,目標為打造靈活應變、萬物智慧的世界。 一直以可編程技術為發展重點的Xilinx,2018年3月正式啟動策略轉型工作,宣示該公司從元件廠商轉型為平台廠商,提出自行調適運算加速平台(Adaptive Compute Acceleration Platform, ACAP)發展核心,旋即於10月推出第一款產品Versal。Xilinx總裁暨執行長Victor Peng表示,Versal字面上是由Variety與Universal組合而成,希望在技術與應用上可以兼顧多樣性與通用性。 在AI無所不在的時代,AI應用日新月異,晶片設計週期已經落後創新的速度,因此Peng認為,FPGA彈性的特點可以應用在AI的創新上,一般新晶片設計週期高達24個月,透過ACAP平台的協助,可將AI模型加以拆解,變成數個不同的發展(Develop)、優化(Optimize)、部署(Deploy)流程,該平台動態範圍廣泛彈性,可針對不同的應用調整需要的加速範圍。 Versal ACAP結合純量處理引擎(Scalar Processing Engine)、Arm Cortex-A72與Arm Cortex-R5,以及自行調適硬體引擎(Adaptable Hardware Engine),可動態重新配置,即時加速能力最高達八倍;DSP引擎可提供高準確性浮點運算與低延遲;AI引擎具有高傳輸率、低延遲與高效率,可協助AI推論與高階訊號處理,搭配先進記憶體和介面技術,可提供強大的異質加速能力。不管是軟體開發者、資料科學家或是硬體開發者,只須利用符合業界標準設計流程的工具、軟體、函式庫、IP、中介軟體以及框架,就能針對其硬體與軟體進行編程與最佳化。據了解,Versal採用台積電7奈米FinFET製程,正式量產時間為2019年第二季。 Xilinx也以現有UltraScale+ FPGA為基礎,發表Alveo U200與Alveo U250加速卡,就機器學習而言,Alveo U250的即時推論傳輸率比高階CPU高出20倍,甚至在低於2毫秒的低延遲應用方面,也比高階GPU這類固定功能加速器高出4倍。此外,Alveo加速器卡的延遲較GPU減少3倍,在資料庫搜尋等應用方面大幅加速、並提供較CPU高出90倍的效能。 Xilinx總裁暨執行長Victor Peng表示,FPGA靈活彈性將有助AI創新應用發展。  
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -