- Advertisement -
首頁 標籤 DDR

DDR

- Advertisment -

AI推論執行有道 INT4運算全精度優化

因此,4位元啟動參數和4位元權重參數(4-bit Activations and 4-bit Weights, 4A4W)Hardware-friendly型量化解決方案可實現更優異的精度/資源權衡取捨。本文介紹在Zynq UltraScale+MPSoC和Zynq-7000SoC系列上針對CNN 4位元XDPU實現的低精度加速器,其透過高效映射卷積運算,充分發揮其DSP功能。這種解決方案可提供優於XDPU兩倍的性能。而在ADAS系統中執行2D檢測任務時,這種實現方案能夠在MPSoC ZCU102基板上實現230fps的推論速度,與8位元XDPU相比,性能提高了1.52倍。此外,在用於ADAS系統中的不同任務時,該解決方案可實現媲美全精度模型的結果。 網路結構剖析 企業日益重視使用AI的系統在資料中心、汽車、工業和醫療等領域中的產品化。這帶來了兩大挑戰,如AI推論需要完成的運算量規模增加,同時還要保持價格、功耗、延遲和尺寸大小不變;以及AI科學家繼續日復一日地在演算法和模型上開展創新,也需各種不同的硬體架構提供最佳性能。 針對持續創新的強烈需求則需要使用彈性的領域專用架構(DSA)。優化AI推論性能和降低功耗的主要趨勢之一,是使用較低精度和混合精度。為降低硬體設計複雜性,模型量化被當作應用於各類硬體平台的關鍵技術。大量工作被投入用於大幅降低CNN運算量和儲存成本。本文充分地證明,對於大多數電腦視覺任務,在不嚴重犧牲精度的情況下,權重參數和啟動參數可以用INT8表示。然而對於某些邊緣應用而言,硬體資源仍然不足。在針對邊緣應用使用較低的位元寬度(如1或2位元)時,一些常見的硬體設計解決方案使用簡化的乘法器。儘管這些解決方案延遲低、輸送量大,但它們與全精度模型相比,仍然存在較大的精度差距。因此,在模型精度和硬體性能之間尋求平衡變得至關重要。 本文運用幾種常見的網路結構,在ImageNet分類任務上透過使用幾種不同的量化演算法進行實驗。結果顯示精度隨著位元寬度減少而下降。尤其是在位元寬度低於4時,精度下降幅度顯著。此外,也使用Samuel Williams等人提出的Roofline模型,分析不同位元寬度下的硬體性能,如圖1所示。以賽靈思ZCU102評估板為例,隨著MAC的精度降低、硬體成本降低,性能獲得提升。此外,實驗結果還顯示,低位元量化可透過降低記憶體需求提高性能。這在ResNet-50神經網路的卷積運算強度上獲得證實,該網路分別用4和8位元精度進行了運算。因此,INT4在模型精度和硬體性能之間實現了較佳的平衡。 圖1 ZCU102上以不同位元寬度運行Roofline模型 如何量化全流程Hardware-friendly型CNN 為實現整個量化過程的Hardware-friendly化,INT4量化法可分為三個部分:量化機制、Hardware-friendly型量化設計、量化感知訓練。 ・量化機制 本文使用經訓練的量化臨界值(TQT)將DNN從單精確度浮點(FP32)轉換為INT4。對於權重和啟動參數,量化函數可正式寫成:   其中n=-2b-1,p=2b-1-1,為有符號資料;n=0,p=2b-1及為無符號資料。   公式1表示輸入值(x)的量化值取決於臨界值(t)、位元寬度(b)和量化比例係數(s)。臨界值t一般初始化為待量化張量的絕對值之最大值。隨後在訓練過程中用log2t的形式進行優化。量化係數是2的冪,具有Hardware-friendly特性。若將上下截斷運算去除部分離群資料,加大權重參數和啟動參數的分布緊密度,更有利於量化。 如上文所述,log2t是一種在訓練過程中可學習的參數,優化它就能確定合適的量化範圍;與之相反,log2t的梯度可透過鏈式法則確定。此外,輸入值的梯度也可透過下方公式運算:   對於(四捨五入)和(正無窮取整數),不可微函數STE被用於確定梯度,定義如下方公式所示。     TQT證明對數表達能確保臨界值和輸入值的標度不變性。採用對數方式訓練臨界值更容易管理,並且已證明是較高效的。 ・Hardware-friendly型量化設計 要進行量化訓練,必須從全精度網路中構建低位元網路。以流程化Hardware-friendly型量化為基礎,下文介紹部分常用的網路結構,並針對幾種粗細微性模組的量化解決方案總結。對於這些量化模組,INT4量化方法可用於多種類型的網路結構;部分常用模組的量化解決方案如圖2所示。圖2中的虛線表示能根據實際網路結構增添或者刪除。 圖2 模組量化 首個模組為CBR(Conv+BN+ReLU),其作為CNN中的通用結構,BN層被合併以減少訓練和推論過程中的觸發器數。然而,BN層存在不一致性;大量運算在訓練過程中使用當前批次的平均值和平方差,但在推論過程中移動平均值和平方差。如果量化的是從當前批次的平均值和平方差獲得的合併參數,在推論時就會導致偏差。為消除這種不匹配,應使用下列最佳實踐來量化這種結構。在將BN折疊到ConV後,就對折疊到INT4的參數進行量化。該模組的量化如圖2(b)所示。 再來為BRC(BN+ReLU+Conv)模組,如圖2(c)所示,在緊隨卷積層的BN層被合併後,仍然存在獨立的BN層。然而,在現有的INT4量化方法中,BN層原則上不受重視。為有效部署這個獨立的BN層,有種量化神經網路的簡化方法被用於在訓練過程中保持全精度,並在推論過程中吸收浮點標度和臨界值偏差。這種方法可延伸用於所有線性運算(包括推論中的卷積),同時有助於保持精度。該模組的量化詳見圖2(d)。 而於加法模組中,其占用硬體資源較少。因此該層一般量化為8位元。此外,為了量化所有輸入和輸出,將使用標度共用規則。共用規則的作用是讓硬體繞過標度運算,消除了浮點乘法的需要。如圖2(b)所示,「ShareQuantize」指這些量化層共用相同標度。 至於其他則為確保卷積運算輸入是4位元,加法運算的8位元輸出需要再次被量化為4位元,如圖2中的「再量化」所示。針對第一層和最後一層,仍然進行INT4量化,整個網路的輸出被量化成8位元,且內積層與卷積層保持一致。 ・量化感知訓練 量化感知訓練通常被作為關鍵技術,用來降低低位元模型與全精度模型之間的精度差。在本文描述的INT4量化方法中,它仍具備不可或缺的作用。量化感知訓練過程都使用以下所示的逐層量化感知訓練演算法。 於輸入方面,其為全精度輸入、權重和偏差:X、W、Bias;針對輸入和權重的可學習對數域臨界值:ax、aw、abias;位元寬度:針對輸入和權重,b=4;針對偏差,b=8。而輸出:Y,初始化ax=log2max(|x|),aw=log2max(|w|),abias=log2max(|bias|),同時根據公式1運算q(x)、q(w)和q(bias)。而Y=Forward(q(x),q(w),q(bias));運算分類損耗為:Loss,針對所有可學習參數使用正則化方法。可參閱以下公式,並使用Adam更新全精度參數。 於DSP晶片最佳化INT4f 使用DSP硬體資源可實現乘法和加法密集型(Multiply-accumulate, MAC)占用硬體資源較少。經優化後,DSP能夠在16或28nm元件上處理較多的MAC運算。以16nm為例,賽靈思可程式設計元件中UltraScale架構的DSP48E2晶片就屬於專用晶片,其由一個27×18二進位補數乘法器和一個48位累加器構成。如圖3所示,MAC能使用DSP晶片完成。 圖3 MAC模式下的晶片 INT4優化 在低精度MAC運算中,相乘方式是a×b。其中a是4位元無符號啟動參數資料;b則是4位元有符號權重參數資料。該晶片可被配置成4通道乘法運算,如圖4所示。 圖4 4通道封裝晶片的配置模式 該晶片的埠A是27位元寬度、埠B是18位元寬度。iNT4×uiNT4相乘產生的結果至少有8位元寬度。 充分利用DSP資源的前提是在多個相乘被打包在一起時,可確保輸出結果保持正確。為確保這一點,通道之間添加了保護位元。當四個MAC通道被打包在一起時,需要在兩路輸入間布置足夠的保護位元。根據晶片設計,保護位元被設置為3位元:   第一個通道A1×W1被布置在對應埠的4LSB上,下一個通道A2×W1需要移位元至少8位元才能正確運算;第二個通道與第一個通道共用權重參數資料W1。埠B中的A2移位11位。3位元保護位元用於最大化DSP資源的利用;最後一個運算元W2被分配給埠A。最後兩個通道是A1×W2和A2×W2。權重參數是有符號資料。在相乘開始前,使用27位預加法器打包兩個權重參數資料。因為W1需要符號擴展,所以W2不能布置在D埠的四個MSB上。如果W2在MSB中,當W1<0且W2=-8時,預加法器就會溢出。後48位加法器可作為累加器,透過級聯對之前層次的DSP結果進行相加。單個晶片就能在單時序週期內實現四通道MAC。 結果的位元寬度在累加後增大。Hardware-friendly型量化器是一組移位暫存器,它可以透過指令控制移位元的位元數。移位元運算為Hardware-friendly型。在低精度CNN中,卷積能夠使用兩種量化方法之一。一種是逐運算位元輸出8位元;另一種是針對下一卷積輸出4位元。透過優化演算法,兩種量化方法都能量化成2k的步伐長度。差別在於輸出資料的位元寬度以及它們是否是有符號資料。 DSP強化使用 DSP雙數據速率(DDR)技術被用於改進晶片實現的性能。因此需要為DPU提供兩個輸入時序:一個用於通用邏輯,另一個用於DSP晶片。未採用DSPDDR技術的DPU和採用強化使用模式的DPU之間的差異如圖5所示。 圖5 未採用DDR的DSP和DSP強化使用之間的差異 運算圖因應CNN要求 卷積是CNN網路的主要運算要求。卷積的實際運算任務如下: 其中Anf是浮點特徵圖,Wnf是浮點權重。其本質上是MAC運算。根據新量化感知訓練解決方案,浮點的卷積運算按如下方式進行量化:   其中axf、awf和abf是標度。這些浮點參數被轉換成2k×2k。這是一種Hardware-friendly型標度,能夠在FPGA中使用移位運算實現。 DSP模組在一個時序週期中需要兩個權重和兩個特徵,其中彼此都能共用,如圖6所示。 圖6 卷積運算任務和乘法器共用方式 其中Anf是浮點特徵圖,Wnf是浮點權重。其為MAC運算。根據新量化感知訓練解決方案,浮點的卷積運算如以下方式進行量化: 模型量化與性能模擬 下面的篇幅講解量化感知訓練中使用的CV任務。這些任務包括影像分類、姿態估計、2D檢測、3D檢測、語義分割和多工處理。 基準分類模型 在完成ImageNet分類資料叢集上的實驗後,得到以下結果。網路包括ResNet50-V1、ResNet50-V2。在所有實驗中,資料叢集均從浮點模型進行微調。所有偏差參數都量化到8位元,實驗結果如表1所列。 而基準分類模型的結果參見表1。它體現了這種方法的有效性,對ResNet50V1而言,4位元與8位元XDPU解決方案在前1精度上的差距僅有1.4%,在前5精度上的差距則僅有0.9%。 表1 不同位元寬度下類ResNet50的網路精度 即時ADAS模型解析 為進一步驗證量化方法的通用性,也在真實場景下開展了其他CV任務。 ・姿態估計 姿態估計任務使用更加複雜的堆疊Hourglass網路。透過在MPII資料叢集上開展姿態估計實驗,評估逐層模式下兩個網路結構的精度。結果參見表2。 在表2中,hg-s2-b1意謂著堆疊數量是2,模組數量是1;hg-s8-b1意謂著堆疊數量是8,模組數量是1,因此證明INT4量化解決方案實現了可相比浮點模型的精度。 表2 不同位元寬度下的Hourglass網路精度 ・2D檢測 在ADAS系統中,BDD100K數據叢集用於2D檢測。此外,特徵金字塔網路(FPN)結構被添加到ResNet18-SSD中作為檢測網路,而實驗結果如表3所示。 表3所示的是在經過微調後,8位元量化模型實現了高於浮點模型的mAP。透過逐漸從8位元微調到4位元,最終4位元量化模型的mAP損耗小於2%。 表3 不同位元寬度下的檢測精度 ・3D檢測 ADAS系統的3D檢測任務使用KITTI資料叢集,而PointPillars用於開展3D預測任務,實驗結果如表4所示。 如表4所示,採用微調技巧後,4位元量化模型的精度僅比浮點模型低0.16%。 表4 不同位元寬度下的3D檢測結果 ・語義分割 在ADAS系統的語義分割任務中,CityScape的資料叢集以理解城市視覺場景為重點。實驗在以ResNet18為基礎的特徵金字塔網路上開展。結果如表5所示。 表5顯示,8位元模型可實現比浮點模型更高的mIoU,4位元模型的mIoU僅比浮點模型低1.7%。語義分割的示意圖參見圖7。 表5 不同位元寬度下的語義分割精度 圖7 語義分割示意圖 ・多工學習 為增強模型的歸納功能和精度,在多工模型中使用了多個訓練資料集,包括用於檢測的Waymo和BDD100k,以及用於分割的BDD100k和Cityscapes。這些研究在以ResNet18為基礎的特徵金字塔網路(FPN)上開展。結果如表6所示。 表6顯示,8位元量化模型可實現優於浮點模型的mAP和與浮點模型保持同等水準的mIoU。透過逐步微調,與浮點模型相比,最終的4位元量化模型的mAP降低1.66%,mIoU提高1.79%,仍然劣於8位元模型的表現。 表6 不同位元寬度下的多工精度   競爭分析:8位元/4位元對比 4位元XDPU在下列三種評估板上以300MHz頻率運行:Ultra96、Zynq UltraScale+ MPSoC ZCU104和ZCU102。表7所示為4和8位元XDPU的比較情況。在不同的FPGA上,4位元XDPU實現的性能提升1.5倍到2.0倍之間。例如,ZCU102板使用的硬體資源沒有增加,但性能提高2倍。 表7 4和8位元XDPU的性能比較 對於兩個精度不同的加速器,在啟用池化、逐運算單元逐深度卷積和平均池化等全部功能後,針對資源進行比較。如表8中所示,在相同的性能架構下,DSP和RAM的占用顯著下降。有鑑於資源耗用下降,4位元XDPU架構被擴展到B8192的最大規模。使用B8192架構能以單元件實現更高性能。 表8 4和8位元XDPU的資源消耗比較   若以表3中13.6FLOP的2D檢測模型為例,兩個高精度模型4/4和8/8分別使用4和8位元XDPU進行測試。該網路的運算要求是13.6GOP。2D檢測網路的訊框率如表9所示,測試不包含預處理和後處理。有鑑於效率和網路類型的差異,性能和訊框率之間不存在線性關係。如表9所示,4位元XDPU的訊框率在所有平台上均優於8位元XDPU。 表9 4和8位元DPU之間的訊框率比較 本文介紹了一種運行在Zynq UltraScale+ MPSoC和Zynq-7000 SoC系列元件上的完整流程、Hardware-friendly型量化解決方案,可作為CNN的低精度加速器。此外,本文也介紹如何在DSP晶片上優化INT4,進而在一個時序週期內完成4通道INT4相乘。卷積運算要求可透過打包DSP予以滿足。與INT8 XDPU解決方案相比,使用DSP實現的INT4優化在真實硬體上可將處理峰值GOPS提升最高2倍,並將性能提升至最高1.77倍。 (本文作者皆任職於賽靈思Xilinx)
0

愛德萬新記憶體測試機瞄準全球DDR/DRAM需求

半導體測試設備領導供應商愛德萬測試(Advantest)發表最新多功能、高產能H5620記憶體測試機,能針對低功耗雙存取同步動態隨機存取記憶體(DRAM和LPDDR)裝置進行預燒及記憶體單元測試。 愛德萬測試記憶體自動化測試設備事業群副總Takeo Miura表示,這款測試機兼顧優異生產力與低廉測試成本,為檢驗現今最新DRAM元件的測試標準樹立新標竿。 5G技術時代來臨,全球DRAM位元消耗預估將在2023年近乎翻倍,而此波需求成長背後的主要推手,正是持續成長的資料處理和行動通訊市場,不僅資料中心要求更多記憶體,智慧型手機解析度升級、新增摺疊功能和多鏡頭設計等也是原因。隨著記憶體IC平均售價持續縮水,半導體製造廠不可免的需要另闢蹊徑,縮減測試成本、擴大產量。 愛德萬測試最新測試系統,能夠滿足這樣的需求。H5620在生產環境中,能以100-MHz頻率和高達200Mbps的資料傳輸率,平行測試超過1.8萬個元件。此外,H5620能因應工廠自動化需求,還有具備個別熱控制穩定度的雙溫箱結構,支援從-10°C到150°C大溫度範圍測試。 不僅如此,新系統結合原有記憶體單元測試與記憶體生產設備的預燒測試流程,不僅有助客戶降低資本支出,也能節省工廠空間。 H5620使用具備多元工具組合的FutureSuite作業系統。有了這套軟體,測試機很容易能與愛德萬測試原本的記憶體測試系統相容。另外,愛德萬測試全球支援網也能立即提供客戶在程式編碼、除錯、關聯性分析和維修等方面的協助。
0

緩解資料移動/存取瓶頸 HBM大幅加速AI應用

本文將以賽靈思(Xilinx)旗下解決方案為例,透過深度學習和資料庫加速的案例,闡述一個均衡且支援三星HBM2的賽靈思運算加速器系統,如何提供具備最佳靈活性、效率和效能的高效運算加速解決方案。 近年異質運算逐漸興起,拓寬了後摩爾定律時代在加速運算密集型作業負載的創新。在當前資料中心產業中,普遍採用異質運算進行加速的作業負載種類繁多,包含人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一小部分。 然而,長期以來,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年裡,並行記憶體介面的頻寬效能雖有改善但進展緩慢;現今FPGA所支援的最大DDR4資料速率仍然只有2008年DDR3的2倍左右。相比之下,自2008年以來,FPGA的運算能力已提高了近8倍,且隨著配有AI核心的Versal元件推出後,預計未來兩年內還有更大的成長空間。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型作業負載發展的主要限制因素(圖1)。 圖1 運算容量的提升與DDR頻寬的改善比較 HBM效能/傳輸更高更快 HBM是一種高速的系統級封裝(SiP)記憶體技術,與採用傳統打線接合封裝(Wire Bonding-based Package)的記憶體產品相比,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,來達到更大的儲存容量與更高的資料頻寬。聯合電子裝置技術協會(JEDEC)在2013年開始採用初代HBM標準,並在2016年1月批准第二代HBM2版本為業界標準。 HBM2標準支援4個或8個8Gb的DRAM晶粒逐個堆疊在一起,由一個2.5D矽「中介層」提供支援,該「中介層」可將記憶體堆疊與底層電路板連接起來。堆疊一些晶粒(通常是記憶體)而不是其他晶粒(通常是處理器)的多晶片封裝被稱為2.5D元件(圖2)。 圖2 HBM和2.5D架構 由於多個堆疊能被添加在同一個封裝中,因此與傳統的多晶片DRAM產品相比,當堆疊多個晶粒在一個電路板上並將其堆疊得更緊密時,可以大幅減少HBM記憶體封裝的水平占板面積。此外,HBM技術還縮短了訊號在元件之間的傳輸距離,因此可以提高系統效能,且較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。 圖3 HBM晶粒堆疊技術 HBM具備先進的TSV技術、微尺度互連和突破極限的I/O數量,可以增加記憶體頻寬,與其最強勁的競爭對手,也就是用於繪圖卡的繪圖用雙倍資料傳輸率(GDDR)記憶體相比,HBM明顯能提供更高的效能。在元件級別,單個三星HBM立方體可以提供高達307GB/s的資料頻寬,比GDDR5晶片高出近10倍的資料傳輸率。而在系統級別,與採用GDDR的解決方案相比,HBM能提供近3倍的輸送量,並使用少於80%的功耗,同時還可以節省寶貴的電路空間(圖4)。 圖4 HBM與GDDR頻寬比較 FPGA元件助力 記憶體頻寬再上層樓 以下將以賽靈思旗下FPGA產品為例,該公司支援HBM的Virtex UltraScale+ FPGA大幅改善了記憶體頻寬,例如2個三星HBM2記憶體堆疊就可提供高達460GB/s的速率。當將1或2個HBM2堆疊與各種尺寸的FPGA邏輯(多達285萬個邏輯單元)和DSP(高達9,024個DSP48E2分割,可提供28.1峰值INT8 TOP)進行配對時,使用者就可以選擇搭配全新支援HBM的UltraScale+元件系列,為其應用選擇最佳的運算能力與記憶體頻寬/容量組合。 另一方面,除了支援HBM的Virtex UltraScale+FPGA,賽靈思還推出Alveo U280資料中心加速器卡,由16奈米UltraScale+架構所打造,採用8GB三星HBM2,可為資料庫搜尋與分析、機器學習推論及其他記憶體限制應用提供更高等級的加速功能;並涵蓋了CCIX支援,可以利用現有的伺服器互聯基礎設施和即將推出的CCIX處理器,提供高頻寬、低延遲的快取一致性共用記憶體存取。許多受限於記憶體的應用都能受益於支援HBM的UltraScale+元件,本文將以深度神經網路與資料庫加速方面的案例為例,展示支援HBM的UltraScale+元件之優勢。 強化記憶體頻寬提升AI語言翻譯效能 如今,各種雲端應用都有提供自動即時語言翻譯服務,其可透過採用神經網路的機器學習方法在兩種語言之間翻譯語句(稱為機器翻譯),編碼器-解碼器架構強化當今的商業自動化翻譯服務。 在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以透過向量進行量化建模和反映。遞迴神經網路、卷積神經網路和基於注意力的模型等架構通常用於執行編碼和解碼功能。 近期研究表示,在語言翻譯中,只有採用注意力的網路能達到最高的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)所構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成,該結構與前饋網路被共同用於建構整個語言翻譯模型的解碼器和編碼器(圖5)。 圖5 轉換器--基於注意力神經網路的語言翻譯模型 如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積運算。這些點積通常被組合到矩陣乘法運算,以達到更高效的運算。然而,與在整個空間中大量重複使用權重參數以減少資料移動痕跡的傳統卷積神經網路不同,這類基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法運算的記憶體頻寬要求要高出許多。 我們建置了一個用於語言翻譯且基於注意力的先進神經網路的轉換器分析模型,並將其映射在UltraScale+元件上運行。FPGA建置方案的架構採用DSP脈動陣列來執行矩陣乘法,中間的啟動資料儲存在晶載URAM中,可以消除啟動時所造成在處理器和外接記憶體之間頻繁進行的資料移動。HBM或DDR則用於儲存所有嵌入字典的單詞嵌入與權重參數。 針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批量大小(B),對其進行分析就可以瞭解附加DDR的UltraScale+元件和支援HBM的UltraScale+元件對於延遲和傳輸量之間的權衡。這一研究對於DDR與HBM的建置,假設使用具有256個16位元輸入和32個16位元輸出的脈動陣列,並將其運行在710MHZ的UltraScale+元件上。詳細的傳輸量與延遲關係圖請見圖6。 圖6 採用具有HBM和DDR4的UltraScale+元件進行語言翻譯效能分析。 長度為8的句子在4條通道上運行的最低延遲約為15.7ms,傳輸量為508符號/秒。一條DDR通道用於存取單詞嵌入資料,其餘三條DDR通道用於載入權重。對於支援HBM的元件而言,一個長度為8的句子之最小延遲為2.2ms,比DDR介面低7倍以上。DDR介面在兩種句子長度上都不能達到7ms以下的延遲,但是支援HBM的元件在傳輸量為10,419符號/秒,且句子長度為8的情況下可達到6.1ms的延遲,在輸送量為4,682符號/秒,且句子長度為16的情況下可達到6.8ms的延遲。 借助通用矩陣運算資料庫加速AI應用 與前面討論的機器翻譯案例一樣,幾乎所有現代深層神經網路(深度學習)的主要運算都是以矩陣乘法的形式來完成。除了機器翻譯以外,在資料中心廣泛部署的其他典型深度學習應用有影像/視訊分析、網路搜尋的搜尋排名系統、廣告投放的推薦系統、內容/來源推薦、語音辨識以及自然語言處理。 為了更佳地支援更多的深度學習應用,賽靈思開發了通用矩陣運算(GEMX)資料庫,用於加速元件上的矩陣運算,該元件由SDAccel開發環境提供支援。該資料庫包括三個組件:引擎庫、主機代碼編譯器與以應用或系統建構的環境,引擎庫則由一組具有BLAS函數介面的C++範本組成,可以在FPGA上進行矩陣運算。 主機代碼編譯器將主機代碼矩陣函式呼叫編譯成一系列指令,用於觸發FPGA上的矩陣運算,建構環境採用GNU make流將FPGA和主機代碼影像生成過程自動化。此外,該產品還支援使用者對系統的各個方面進行配置,例如,FPGA平台、FPGA影像中建置的引擎數量等。 雖然GEMX引擎的兩個輸入矩陣都來自DDR記憶體,但GEMX的傳輸量取決於DDR介面的頻寬。圖7的分析比較了使用DDR4連接UltraScale+元件的GEMX與使用支援HBM的UltraScale+元件的GEMX之效能。該分析模型充分利用了記憶體頻寬,並假設使用32×32×128的矩陣作為GEMX的輸入。結果如圖7所示,與使用4條DDR通道相比,支援HBM的元件可以將GEMX的效能提升約3.6倍。 圖7 GEMX效能 HBM讓記憶體存取/使用更有效 受益於HBM記憶體控制器中的靈活定址方式,支援HBM的UltraScale+元件具備的獨特優勢之一就是HBM通道的靈活並行使用。HBM通道的存取與使用,是能夠完全地被可重配置和重新編程,還可以通過FPGA邏輯輕鬆存取。 如圖8所示,使用者可以將原始資料庫檔案剝離到多個HBM通道中,並讓並行處理運算單元執行不同的資料庫操作,以獨立並行存取資料庫的不同部分而無需進行同步。這一特性有助於改善即時案例中的操作延遲並有效地使用HBM,因為所有運算單元都可以即時回應資料庫查詢,毋須批次處理或同步。在上述機器翻譯案例中,該特性還用於分離兩個通道進行單詞嵌入存取,而其餘通道則用於高頻寬權重參數傳輸。 圖8 靈活的並行記憶體通道存取 雖然三星HBM在AI和資料庫加速等案例中的重要性已得到證實,但還有很多其他的資料中心作業負載也可從HBM中顯著獲益。總而言之,在資料中心領域,隨著異質運算加速的發展趨勢以及運算設備技術的創新,迫切需要在運算單元附近附加像HBM這樣的高效能記憶體系統;而支援HBM的UltraScale+元件具有獨特的價值,以深度學習和資料庫加速為例,賽靈思支援HBM的UltraScale+元件就發揮出運算加速的新潛力,並將其引領至更高的水準。 (本文由賽靈思提供)
0

是德推出全新統包式DDR5測試解決方案

是德科技(Keysight Technologies)宣布推出業界首見的雙倍資料速率(DDR)5.0統包式測試解決方案(DDR5測試),其中包括新的接收器、發射器和協定測試解決方案,方便客戶同步執行DDR5設計規範要求的所有測試。 每一代新的雙倍資料速率同步動態隨機存取記憶體DDR SDRAM(的縮寫)都持續進化:資料傳輸速度更快、封裝尺寸更小,而且功耗更低。隨著DDR技術的速度不斷加快,工程師將面臨新的設計和驗證挑戰。當設計誤差邊限缩小,訊號完整性就變得更難維持。 新推出的測試解決方案包含發射器(Tx)到接收器(Rx)軟體,以及可提供完整參數測試套件的測試夾具,以便全面測試並分析DDR5設計。新的接收器和發射器測試解決方案還包括具有最低雜訊和抖動底線的M8040A 64 Gbaud高效能型BERT和Infiniium UXR系列即時示波器,以提供具有最高邊限的最準確量測。 是德科技網路和資料中心部門副總裁暨總經理Joachim Peerlings表示,隨著物聯網逐漸成長並支援全球數十億個網際網路連接裝置,資料中心業者必須找到可滿足不斷增加之資料和儲存需求的方法,同時還需維持服務品質並降低成本。Keysight DDR5測試解決方案讓設計人員能以更高的資料傳輸速率,將發射器、接收器和通道設計最佳化,以獲得最出色的效能和可靠性。
0

是德發布PathWave先進設計系統解決方案

是德科技(Keysight)宣布旗下的PathWave Advanced Design System (ADS) 2019套件新增了 PathWave Memory Designer雙倍資料速率(DDR)記憶體模擬功能。利用此全新功能,開發人員可輕鬆地將模擬資料與實際量測結果進行比較,以縮短完成產品開發工作流程所需的時間。 隨著新一代DDR記憶體設計日益複雜,其模擬和測試配置的複雜度因而不斷提高,所耗費的模擬和測試設定時間也越來越長。如此一來,想要將模擬和測試資料進行關聯性比對變得更為困難,不但降低了設計可信度,還延長了故障排除時間,可能錯過最佳的產品上市時程。PathWave ADS Memory Designer可連接模擬和測試工作流程,並利用新的工作流程,解決常見的DDR記憶體設計挑戰。 是德科技設計和測試軟體部門副總裁暨總經理Todd Cutler表示,電子產業共同面臨的一項挑戰是,以更高的效率完成產品開發工作流程;尤其是必須將各個單獨的設計和測試任務串連在一起,使得困難度進一步升高。Keysight PathWave 為工程師提供了一種收集、共享和分析測試與量測資料的方法。適用於PathWave ADS的Memory Designer針對DDR模擬提供新的工作流程,可縮短設計週期並減少專案延遲的風險。 Keysight PathWave透過功能強大的軟體幫助客戶加速推動工程工作流程,以實現靈活、互連的設計和測試。該套件具有開放 API 和開放原始碼元件,方便客戶建立客製化平台,並與其現有的硬體和軟體加以整合;以及可擴充的架構,讓客戶能隨心所欲地在專屬工作站、公共雲或私有雲,或是在嵌入式儀器軟體上執行運算。靈活的消費模式,讓客戶能隨時隨地使用軟體。一流的量測科學,可在設計、測試和製造環境中產生一致且準確的結果。
0

是德科技推小尺寸焊接式探棒頭

是德科技(Keysight Technologies)日前宣布推出Keysight MX0100A InfiniiMax微型探棒頭。這個業界尺寸最小的焊接式探棒頭適用於高效能示波器,讓使用者能對現代高速裝置進行精密的測試。 隨著各種電子裝置的體積不斷縮小,探測墊也隨之變得更小,而且間距更窄。此外,DDR記憶體等應用的資料速率一直在提高,傳統的探測墊可當作短截線使用,結果變成電磁干擾(EMI)的來源。為了克服前述挑戰,客戶正積極尋找高密度、小型幾何解決方案,以便探測現代電子技術,並且在無干擾狀況下,分析並量測訊號。 是德科技全新的InfiniiMax微型焊接式探棒頭,可與InfiniiMax I/II探棒放大器搭配使用,讓工程師能輕鬆自如地存取小型幾何目標裝置。使用者還可調整導線的長度,以因應目標裝置從0~7mm的間隔。如與Keysight 1169B 12 GHz InfiniiMax II探棒放大器搭配使用,MX0100A可提供高達12GHz的完整頻寬。MX0100A具有極佳的探棒頭負載效應,可在量測高速訊號時極致提升訊號完整性,並提供同類產品中最佳的探棒頭負載性能(0.17pF、差動50kΩ)。 台灣是德科技總經理張志銘表示,某些情況下現有的示波器探棒頭解決方案甚至比待測裝置的體積更大,使得訊號探量存取成為測試現代電子技術的重大挑戰。不同於同級的傳統焊接式探棒頭,該微型探棒頭尺寸不到現有焊接式探棒頭的一半,是測試高密度、窄間距裝置的理想選擇。
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -