- Advertisement -
首頁 標籤 FPGA

FPGA

- Advertisment -

貿澤供貨ADI LiDAR模組化原型設計平台

貿澤電子(Mouser)與亞德諾半導體(ADI)攜手將AD-FMCLIDAR1-EBZ光線偵測與測距(LiDAR)原型設計平台引進到經銷通路之中。此模組化原型設計平台是專為開發LiDAR深度感測應用軟硬體所設計,有助於縮短系統開發時間,加快有效的LiDAR系統原型的設計流程,適合用於汽車、環境、航太/國防、保全和工業4.0等應用。 貿澤產品部資深副總裁Jeff Newell表示,ADI為工程師提供開發新一代LiDAR應用時所需要的工具和設計資源,很榮幸能將其LiDAR原型設計平台供應給遍布全球的客戶群。貿澤致力於為客戶提供先進技術的開發資源,協助工程師加快開發速度,加速推出新一代的LiDAR技術。 貿澤電子供應的ADI LiDAR原型設計平台為用於1D非掃描式LIDAR開發的模組化硬體平台,並具備開放原始碼的軟體框架。平台的硬體元件包含有雷射板和類比前端(AFE)板,這些電路板可插入具備FMC相容連接器介面的高速資料擷取(DAQ)板,供設計人員連接所要的FPGA電路板。雷射板內含四個獨立雷射,能精準發射905nm波長的雷射。設計人員可按設計需求,透過符合產業標準的安裝配接器,在雷射板上裝入自訂的光學元件。硬體平台的傳送範圍最遠達60公尺,水平解析度為16畫素,四個獨立通道的資料取樣速率為1GSPS。 平台的開放原始碼軟體框架整合符合產業標準的工具與作業系統,包含Linux工業I/O應用程式、MATLAB、Simulink、自訂式C/C+、Python和C#等應用程式。可授權的JESD204B介面架構有助於降低開發複雜度,縮短傳送決定性資料至主機系統的時間。
0

TI新DC/DC降壓轉換器提升高電流FPGA/處理器電源功率密度

德州儀器(TI)近日推出一款新型40-A SWIFTTM DC/DC降壓轉換器,可堆疊最多四個積體電路(IC)。TPS546D24A PMBus降壓轉換器可在85°C的環境溫度下提供高達160A的輸出電流,電流比市面上其他同類電源IC高四倍。TPS546D24A是所有40-A DC/DC轉換器中效率最高的產品,其能降低1.5W功耗的優勢,能應用在高效能數據中心、企業運算、醫療、無線基礎設施以及有線網路應用中。 該解決方案的尺寸與散熱性能是工程師為現行的可編程邏輯閘陣列(FPGA)設計電源的兩個關鍵考慮因素。TPS546D24A降壓轉換器以其獨特的可堆疊性解決了這兩個問題。它提供可選的內部補償網路PMBus接口,可減少電路板上多達6個外部補償零組件,與分離式多相控制器(Discrete Multiphase Controllers)相比,可將整個電源解決方案尺寸縮小10%以上(或130mm2),適用於更高電流的FPGA及特殊應用IC(ASIC)。 此外,TPS546D24A具有低熱阻(8.1°C/W),相較於市場上其他 DC/DC轉換器低13°C,進而提升在高溫、惡劣環境下運作的電子產品(例如基頻單元裝置與自動化測試設備等)的可靠性。
0

可編程架構靈活第一  FPGA DNN部署高速直進

本文概述演算法和架構方面的最新發展,並探討FPGA如何適應不斷變化的環境。 DNN加速部署因應環境變化 當今工業革命的核心是推出許多機器學習(ML)的演算法,尤其是深度神經網路(DNNs)(圖1)。其在電腦視覺與語音辨識領域取得令人印象深刻的成果,且越來越廣泛地應用在其他任務中。DNN首先會透過已標記的資料集進行訓練,後續應用的其中之一是將其他資料進行推論,這個推論的過程通常被稱為部署,即是本文的重點。 圖1 卷積神經網路的基本拓撲結構 與DNN部署相關的大量運算和儲存需求需要加速。此外,根據不同的應用實例,可能會對準確度、成本、功耗、模型大小、傳輸量和延遲有不同的限制。擁有即時性且以安全為重點考量的應用,如AR、無人機控制、自動駕駛等,由於低延遲與資料傳輸量的需求,因此不適合使用雲端。 在雲端運算和ML即服務的環境下,資料中心為成功處理大量的資料,面臨不斷成長的傳輸需求,為能源效率與營運成本帶來更多像是如何降低最多營運費用等挑戰。與嵌入式場景相比,雖然雲端服務延遲不那麼重要,但其仍然會直接影響到互動式應用的使用者體驗,例如Jouppi等學者在雲端服務中,將互動式使用者體驗的回應時間限制為7毫秒。 由於上述這些挑戰,過去數年間不同DNN模型與加速器呈現極速的發展。考慮到應用需求的差異,目前DNN推論作業負載與硬體加速器架構領域的一大關鍵趨勢,為多樣性及快速演進發展。本文將概述演算法和架構的最新發展,並探討FPGA如何適應這種不斷變化的環境。 DNN趨向追求高效推論 DNN通常是由一個或多層建構的前饋運算圖,其中大型網路能夠包含數百到數千層;每一層皆由突觸互聯的神經元組成且都與權重相關。每個神經元運算其接受域的加權和,並且使用非線性激勵函數。電腦視覺通常使用卷積層,其接受域擴展到多個典型的二維特徵圖,這些特徵圖與多個典型的二維過濾器進行卷積,產生如圖2所示的運算虛擬碼結果。 圖2 典型DNN運算的虛擬碼 機器學習框架(如PyTorch、TensorFlow和Caffe)都是基於這些運算圖展示,針對訓練與推論將硬體的運算進行排程與配置。 傳統意義上,機器學習研究的重點是如何提高模型精確度,並沒有特別考量推論的成本。這一點在像AlexNet與VGG這類較為陳舊的ImageNet獲獎網路中表現相當明顯,即便這些網路現在看來規模較大且過度參數化。然而,隨著機器學習和DNN進入實際應用,運算和記憶體需求成為其中一個主要的問題。上述問題激發最近一系列有關如何使DNN推論更有效的研究,同時精準度和運算的複雜度也會成為考量。 以下簡述為提高DNN效率而提出的幾種方法。在大多數情況下,這些方法可被認為是相互獨立且可以組合的,儘管部分DNN可能不太適合某些技術。 高效能拓撲結構 DNN的拓撲結構定義了其包含多少層、每層的類型和大小,以及各層之間的連接方式。一些拓撲結構由構造規則進行定義,該構造規則根據拓撲參數定義大小和層數。近期大量研究都提出DNN可透過緊湊的拓撲結構實現高精準度,例如透過少量的參數、少量的乘積累加(MAC)運算或兩者並用。 最近的範例包括MobileNets、 ShiftNet、ShuffleNet,和Deep Expander Networks,其通常具有可控制精準度與運算量之間權衡的拓撲參數。而FPGA在這方面可以提供獨特的優勢,因為新型運算單元(例如移位和隨機排列)幾乎不需要運算資源,可透過重新配置元件中的可編程設計互連來實現。 量化 DNN通常使用浮點運算進行訓練,但可以使用有限的數值,其通常可以直接量化到8位元(參考圖3),或者重新接受訓練以使用更少位元(訓練量化),進而得到量化神經網路(QNN)。量化方案可以是均勻或非均勻的,而根據網路的不同部分可以使用不同的量化方案。使用更少位元數需要更少的運算和記憶體,但可能會導致準確度降低。最近大量資料都提出更好的量化訓練技術。近期的方法如LQ-Nets,已經將浮點和4位元QNN之間的精準度差距縮小到1%以下。 圖3 正弦波3位元量化函數 FPGA內部的可編程邏輯可提供獨特的功能,能夠以非常精細的位元度對運算單元的資源進行客製化,進而提供精確的位數來滿足應用需求。因此,此應用能夠發揮潛力來降低運算與記憶體的硬體成本。 剪枝(Pruning) 神經網路的一部分可以被修剪掉而不會對準確度產生任何重大影響,對於某些層來說,準確度最高可達90%(圖4)。剪枝技術在如何選擇修剪部分(例如透過權值幅度或二階導數),以及在選擇以何種精度執行修剪(例如單個突觸、相鄰突觸群或用於卷積的整體特徵圖)有所不同。修剪單個突觸會導致不規則的結構,而這些結構只能透過專用硬體來進行有效處理。雖然人們通常選擇較粗精度的修剪方法,但是精細度的修剪方法更進一步提供可與FPGA搭配使用的效能擴展性,進而縮減記憶體子系統,在提供運算引擎所需支援的同時,有效儲存稀疏表示(Sparse Representations)。 圖4 突觸剪枝 層間融合與分解 數學等價或近似可以用來減少DNN層的運算和記憶體需求。例如,批次的標準化操作可以融合到前面的線性轉換層(卷積或全連接層)中。卷積可以用深度可分離濾波器(Filter)來近似表示基於奇異值分解的全連接層。 其他技術則可以使用知識蒸餾(Knowledge Distillation)使高效能模型的訓練變得更加容易。Hoffer 等學者提出將DNN的最終分類層固定到Hadamard矩陣上的方法,該矩陣具有+1/-1的固定模式值,並證明此方法對幾個ImageNet網路的分類精準度沒有影響。 精度/運算之間損益比較實測 神經網路是函數近似器,高品質的近似器(Approximators)比低品質的成本更高。其中,在確定將多少記憶體和運算資源用於執行推論(使用神經網路),以及所得推論的品質(例如網路對未見輸入影像的類別進行預測時的準確性)之間,需要作出權衡。雖然難以確定資源與精度之間的確切關係,但是透過對具有不同運算要求的神經網路進行訓練並觀察所得準確度,能夠以過往經驗探究其設計空間。 圖5呈現的是設計空間探索的一種結果。(圖中兩軸上的數值越低結果則越理想。)使用不同的量化方案來生成具有不同運算成本(x軸表示為在整體運算中將使用多少FPGA LUT和DSP片的大略數值)和準確度(y軸)的網路。紅線是柏拉圖邊界(Pareto Frontier)與設計點,這些設計點在運算成本和準確度方面都是同類中最好的。在這種情況下,較低準確度的深度網路(ResNet-50,具有2位元權重和8位元激勵)的運算成本與誤率較低,優於較高精度的淺層網路(ResNet-18,具有8位權重和8位激勵)。 圖5 運算成本與使用各種量化網路在ImageNet上排名前5的分類錯誤率 深入推論加速器架構研析發展趨勢 如前所述,神經網路對運算與記憶體的要求可能非常高。例如使用像ResNet-50這類熱門的DNN對每個單獨的輸入影像進行分類需要77億次運算。然而,從優勢來看,本質上DNN的高度平行化,可以加以利用。因此,各種形式的客製硬體架構正在演進發展,以實現這些演算法的部署。 DNN的推論運算包含多個平行級別,如圖6所示。這些平行級別可歸納如下: ・連續層之間的粗精度拓撲平行與平行分支,例如在GoogLeNet或DNN整合中所發現的。 ・層內的神經元和突觸平行,例如多個輸入/輸出特徵圖(IFM/OFM)通道及卷積層中的畫素。 ・當分別查看權重和激勵的各個位元時,運算內部的位元層級平行級別。 圖6 適用於運算DNN推論的平行級別 推論加速器架構前景可期 在為這些運算和記憶體高度密集型演算法優化硬體架構時,會出現以下問題: ・如何進行最佳迴圈轉換和展開,以實現資料重複使用和運算效率最大化與記憶體瓶頸最小化? ・如何在技術節點縮小導致收益有限的情況下提供效能可擴展性? ・如何實現即時回應、功耗限制,以便在耗能較高的嵌入式應用場景中進行部署? 除了標準的CPU以外,特殊應用硬體架構正試圖針對特定的應用限制進行優化,包括GPU、FPGA和AI ASIC。微軟創造了「DNN處理單元」這一術語,也可簡稱為DPU,作為這些客製架構的總稱。圖7描述了通DPU架構,其中典型的「痛點」以黑點標示。 圖7 通用DPU架構中的典型「痛點」 架構可以大致按照運算操作的基本類型、記憶體頻寬、平行級別、專業化程度和既有的準確度支援進行分類。雖然GPU最初是專注於遊戲和繪圖處理,並逐漸應用於高效能運算,但之後也越來越關注AI領域,並且將訓練加速作為其業界標準。 GPU被認為是向量SIMD處理器,如透過NVIDIA Volta系列中引入張量核(Tensor Core)和定點整數運算,為深度學習進行越來越大幅的客製化,尤其是採用NVIDIA最新Turing架構的INT4和INT8。DPU的ASIC解決方案旨在實現硬體成本最小化,並盡可能提升效能,例如Google的張量處理單元(TPU)。如前所述,TPU專門針對張量而不僅只是向量進行運算,並且為了充分發揮量化的優勢,還擁有客製記憶體架構與算數運算。除了TPU以外,越來越多公司正在打造客製硬體,包括Arm、Intel收購的Nervana、MobilEye和Movidius,以及GraphCore、Cerebras、Groq和Wave Computing等眾多新創企業。綜上所述,業界環境正在迅速發生變化。 FPGA在高效DNN的優勢 DNN的多樣性還展現在前面提到的各個平行級別上。因此,對於固定的硬體架構,如果以固定方式傳輸固定數量的平行運算元素,執行DNN的效率就會受到限制。例如,如果為了利用輸入特徵圖和輸出特徵圖(IFM-OFM)平行而建構固定的架構,那麼對於深度可分離卷積來說,可能會降低其利用率。特別是考慮到用來創建高效DNN的技術在快速發展,靈活應變能力是在不斷變化的DNN推斷環境中保持高效率的關鍵。 在這種情況下,業界廠商如賽靈思(Xillinx)FPGA的主要特色在於提供的運算和記憶體資源具有靈活應變能力,並能實現大規模細精度平行。該元件支援多種DPU架構,這些架構能夠充分發揮多個平行級別的優勢,並根據特定DNN拓撲結構的要求和應用根據設計限制進行客製。 在FPGA上運作的Soft DPU可以支援上述配置,並且能為每個特定的神經網路客製顯式記憶體管理及算數運算。 圖8、圖9和圖10提供Soft DPU範例呈現出其架構的多樣性。每種架構的主要特色如下: 對於特定的QNN,FINN可生成客製DPU,其中每一層都有專屬硬體,並採用晶片上通道連接到下一層,但會受到元件尺寸的限制。這樣可以為每一層客製精確度與運算資源,進而實現高效能的設計。層間資料流平行有助於實現低延遲與高傳輸量。FINN是可利用的開源程式碼。 圖8 FINN是一種專用於每層運算資源與層間晶片上資料流Soft DPU 圖9 xDNN是一種具有高度可編程設計與效能優化功能的Soft DPU xDNN是一種具有固定精度的脈動陣列可編程設計堆疊架構。該陣列的規則結構支援高度的效能優化。其提供的工具流能夠將任何DNN應用到該架構,無需生成新的位元流或具備FPGA專業技術,即可將xDNN用於評估。 圖10 BISMO為可支援不同算數運算精度且無需重新配置的Soft DPU BISMO是位元串列矩陣乘法的可編程設計堆疊,其透過序列化位精度維度但平行化其他維度,提供一個固定的架構,不但可以利用運作時的可變精度,同時仍然能夠提供高效能。精度更高的層需要更多的時脈週期(Clock Cycle)來執行,而BISMO為一款開源程式碼。 在摩爾定律終結的驅動下,賽靈思使用的AI架構由具有客製指令集的軟體可編程設計AI引擎組成。此外,基於NoC的互連,在布建資源方面更進一步提升靈活性,這對於提高元件利用率來說至關重要。再者,除了神經網路本身,FPGA還可以提供感測器融合和靈活的I/O;FPGA不僅能夠增加電腦視覺的預處理和後處理,還可以為線上智慧提供整合所需的其他功能,使元件適用於使用者的應用環境。 FPGA架構更迭因應各種挑戰 越來越多的應用採用機器學習演算法,為傳統運算架構帶來巨大的運算負擔。半導體產業透過許多代號為DPU的創新架構來因應挑戰。 其中,FPGA可以發揮關鍵作用,在調整運算架構方面提供高度的靈活性,因此不僅適用於一般的機器學習任務,還適用於特定的神經網路拓撲結構。可編程設計元件可以提供客製演算法,實現儲存和運算資源最小化,進而提供進一步的效能擴展性或針對嚴格的延遲要求進行最佳化。最後,FPGA可以在I/O和感測器融合與電腦視覺的預處理和後方面提供高度的靈活性,有利於滿足客戶需求 (本文由賽靈思提供)
0

緩解資料移動/存取瓶頸 HBM大幅加速AI應用

本文將以賽靈思(Xilinx)旗下解決方案為例,透過深度學習和資料庫加速的案例,闡述一個均衡且支援三星HBM2的賽靈思運算加速器系統,如何提供具備最佳靈活性、效率和效能的高效運算加速解決方案。 近年異質運算逐漸興起,拓寬了後摩爾定律時代在加速運算密集型作業負載的創新。在當前資料中心產業中,普遍採用異質運算進行加速的作業負載種類繁多,包含人工智慧、即時視訊轉碼和基因組分析,而這些僅僅是其中的一小部分。 然而,長期以來,DDR記憶體架構的演進並不足以跟上運算加速領域的創新步伐。在過去十年裡,並行記憶體介面的頻寬效能雖有改善但進展緩慢;現今FPGA所支援的最大DDR4資料速率仍然只有2008年DDR3的2倍左右。相比之下,自2008年以來,FPGA的運算能力已提高了近8倍,且隨著配有AI核心的Versal元件推出後,預計未來兩年內還有更大的成長空間。因此,在資料中心領域,記憶體頻寬與容量將成為眾多運算和記憶體頻寬密集型作業負載發展的主要限制因素(圖1)。 圖1 運算容量的提升與DDR頻寬的改善比較 HBM效能/傳輸更高更快 HBM是一種高速的系統級封裝(SiP)記憶體技術,與採用傳統打線接合封裝(Wire Bonding-based Package)的記憶體產品相比,它使用垂直互聯的DRAM晶片堆疊和一個寬(1024位元)介面,來達到更大的儲存容量與更高的資料頻寬。聯合電子裝置技術協會(JEDEC)在2013年開始採用初代HBM標準,並在2016年1月批准第二代HBM2版本為業界標準。 HBM2標準支援4個或8個8Gb的DRAM晶粒逐個堆疊在一起,由一個2.5D矽「中介層」提供支援,該「中介層」可將記憶體堆疊與底層電路板連接起來。堆疊一些晶粒(通常是記憶體)而不是其他晶粒(通常是處理器)的多晶片封裝被稱為2.5D元件(圖2)。 圖2 HBM和2.5D架構 由於多個堆疊能被添加在同一個封裝中,因此與傳統的多晶片DRAM產品相比,當堆疊多個晶粒在一個電路板上並將其堆疊得更緊密時,可以大幅減少HBM記憶體封裝的水平占板面積。此外,HBM技術還縮短了訊號在元件之間的傳輸距離,因此可以提高系統效能,且較短的傳輸距離可以減少傳輸定量資料所需的能量(圖3)。 圖3 HBM晶粒堆疊技術 HBM具備先進的TSV技術、微尺度互連和突破極限的I/O數量,可以增加記憶體頻寬,與其最強勁的競爭對手,也就是用於繪圖卡的繪圖用雙倍資料傳輸率(GDDR)記憶體相比,HBM明顯能提供更高的效能。在元件級別,單個三星HBM立方體可以提供高達307GB/s的資料頻寬,比GDDR5晶片高出近10倍的資料傳輸率。而在系統級別,與採用GDDR的解決方案相比,HBM能提供近3倍的輸送量,並使用少於80%的功耗,同時還可以節省寶貴的電路空間(圖4)。 圖4 HBM與GDDR頻寬比較 FPGA元件助力 記憶體頻寬再上層樓 以下將以賽靈思旗下FPGA產品為例,該公司支援HBM的Virtex UltraScale+ FPGA大幅改善了記憶體頻寬,例如2個三星HBM2記憶體堆疊就可提供高達460GB/s的速率。當將1或2個HBM2堆疊與各種尺寸的FPGA邏輯(多達285萬個邏輯單元)和DSP(高達9,024個DSP48E2分割,可提供28.1峰值INT8 TOP)進行配對時,使用者就可以選擇搭配全新支援HBM的UltraScale+元件系列,為其應用選擇最佳的運算能力與記憶體頻寬/容量組合。 另一方面,除了支援HBM的Virtex UltraScale+FPGA,賽靈思還推出Alveo U280資料中心加速器卡,由16奈米UltraScale+架構所打造,採用8GB三星HBM2,可為資料庫搜尋與分析、機器學習推論及其他記憶體限制應用提供更高等級的加速功能;並涵蓋了CCIX支援,可以利用現有的伺服器互聯基礎設施和即將推出的CCIX處理器,提供高頻寬、低延遲的快取一致性共用記憶體存取。許多受限於記憶體的應用都能受益於支援HBM的UltraScale+元件,本文將以深度神經網路與資料庫加速方面的案例為例,展示支援HBM的UltraScale+元件之優勢。 強化記憶體頻寬提升AI語言翻譯效能 如今,各種雲端應用都有提供自動即時語言翻譯服務,其可透過採用神經網路的機器學習方法在兩種語言之間翻譯語句(稱為機器翻譯),編碼器-解碼器架構強化當今的商業自動化翻譯服務。 在使用機器執行翻譯任務時,兩種語言的單詞經由一個稱為單詞嵌入的過程,以高維向量的形式呈現;因此,單詞之間的關係可以透過向量進行量化建模和反映。遞迴神經網路、卷積神經網路和基於注意力的模型等架構通常用於執行編碼和解碼功能。 近期研究表示,在語言翻譯中,只有採用注意力的網路能達到最高的準確性。研究論文中所描述的注意力機制,即縮放點積注意力,是由兩個矩陣乘法和其他函數(Scale、Mask和Softmax)所構成的。多頭注意力結構通常由多個並行的縮放點積注意力與不同的輸入投影構成,該結構與前饋網路被共同用於建構整個語言翻譯模型的解碼器和編碼器(圖5)。 圖5 轉換器--基於注意力神經網路的語言翻譯模型 如圖5所示,基於注意力的語言翻譯模型的主要運算強度來自於對縮放點積注意力和前饋網路的點積運算。這些點積通常被組合到矩陣乘法運算,以達到更高效的運算。然而,與在整個空間中大量重複使用權重參數以減少資料移動痕跡的傳統卷積神經網路不同,這類基於注意力的模型幾乎不重複使用輸入空間參數,導致對矩陣乘法運算的記憶體頻寬要求要高出許多。 我們建置了一個用於語言翻譯且基於注意力的先進神經網路的轉換器分析模型,並將其映射在UltraScale+元件上運行。FPGA建置方案的架構採用DSP脈動陣列來執行矩陣乘法,中間的啟動資料儲存在晶載URAM中,可以消除啟動時所造成在處理器和外接記憶體之間頻繁進行的資料移動。HBM或DDR則用於儲存所有嵌入字典的單詞嵌入與權重參數。 針對具有不同句子長度(L)和句子數量的英德翻譯任務,也稱為批量大小(B),對其進行分析就可以瞭解附加DDR的UltraScale+元件和支援HBM的UltraScale+元件對於延遲和傳輸量之間的權衡。這一研究對於DDR與HBM的建置,假設使用具有256個16位元輸入和32個16位元輸出的脈動陣列,並將其運行在710MHZ的UltraScale+元件上。詳細的傳輸量與延遲關係圖請見圖6。 圖6 採用具有HBM和DDR4的UltraScale+元件進行語言翻譯效能分析。 長度為8的句子在4條通道上運行的最低延遲約為15.7ms,傳輸量為508符號/秒。一條DDR通道用於存取單詞嵌入資料,其餘三條DDR通道用於載入權重。對於支援HBM的元件而言,一個長度為8的句子之最小延遲為2.2ms,比DDR介面低7倍以上。DDR介面在兩種句子長度上都不能達到7ms以下的延遲,但是支援HBM的元件在傳輸量為10,419符號/秒,且句子長度為8的情況下可達到6.1ms的延遲,在輸送量為4,682符號/秒,且句子長度為16的情況下可達到6.8ms的延遲。 借助通用矩陣運算資料庫加速AI應用 與前面討論的機器翻譯案例一樣,幾乎所有現代深層神經網路(深度學習)的主要運算都是以矩陣乘法的形式來完成。除了機器翻譯以外,在資料中心廣泛部署的其他典型深度學習應用有影像/視訊分析、網路搜尋的搜尋排名系統、廣告投放的推薦系統、內容/來源推薦、語音辨識以及自然語言處理。 為了更佳地支援更多的深度學習應用,賽靈思開發了通用矩陣運算(GEMX)資料庫,用於加速元件上的矩陣運算,該元件由SDAccel開發環境提供支援。該資料庫包括三個組件:引擎庫、主機代碼編譯器與以應用或系統建構的環境,引擎庫則由一組具有BLAS函數介面的C++範本組成,可以在FPGA上進行矩陣運算。 主機代碼編譯器將主機代碼矩陣函式呼叫編譯成一系列指令,用於觸發FPGA上的矩陣運算,建構環境採用GNU make流將FPGA和主機代碼影像生成過程自動化。此外,該產品還支援使用者對系統的各個方面進行配置,例如,FPGA平台、FPGA影像中建置的引擎數量等。 雖然GEMX引擎的兩個輸入矩陣都來自DDR記憶體,但GEMX的傳輸量取決於DDR介面的頻寬。圖7的分析比較了使用DDR4連接UltraScale+元件的GEMX與使用支援HBM的UltraScale+元件的GEMX之效能。該分析模型充分利用了記憶體頻寬,並假設使用32×32×128的矩陣作為GEMX的輸入。結果如圖7所示,與使用4條DDR通道相比,支援HBM的元件可以將GEMX的效能提升約3.6倍。 圖7 GEMX效能 HBM讓記憶體存取/使用更有效 受益於HBM記憶體控制器中的靈活定址方式,支援HBM的UltraScale+元件具備的獨特優勢之一就是HBM通道的靈活並行使用。HBM通道的存取與使用,是能夠完全地被可重配置和重新編程,還可以通過FPGA邏輯輕鬆存取。 如圖8所示,使用者可以將原始資料庫檔案剝離到多個HBM通道中,並讓並行處理運算單元執行不同的資料庫操作,以獨立並行存取資料庫的不同部分而無需進行同步。這一特性有助於改善即時案例中的操作延遲並有效地使用HBM,因為所有運算單元都可以即時回應資料庫查詢,毋須批次處理或同步。在上述機器翻譯案例中,該特性還用於分離兩個通道進行單詞嵌入存取,而其餘通道則用於高頻寬權重參數傳輸。 圖8 靈活的並行記憶體通道存取 雖然三星HBM在AI和資料庫加速等案例中的重要性已得到證實,但還有很多其他的資料中心作業負載也可從HBM中顯著獲益。總而言之,在資料中心領域,隨著異質運算加速的發展趨勢以及運算設備技術的創新,迫切需要在運算單元附近附加像HBM這樣的高效能記憶體系統;而支援HBM的UltraScale+元件具有獨特的價值,以深度學習和資料庫加速為例,賽靈思支援HBM的UltraScale+元件就發揮出運算加速的新潛力,並將其引領至更高的水準。 (本文由賽靈思提供)
0

巧扮連通橋梁 AIB實現晶片/小晶片高速互連

然而,涉及晶片橋、中介層、侵蝕性幾何形狀(Aggressive Geometries)和微米級微凸點連接的新整合技術已經改變了演算法。戈登‧摩爾曾在1965年指出:「使用獨立封裝並彼此互聯的更小功能來構建的大型系統可能更為經濟。」 如今許多SoC在內核處理方面彼此相似,而特定的週邊功能卻有所不同。有的應用可能需要視覺處理;有的應用需要直接從天線獲取訊號;而有的應用需要SoC提供更多的記憶體。將這些功能分離可獲得一定的價值,比如混合搭配不同的功能,但另一個重要價值是每個功能,像是處理、類比、記憶體、數位訊號處理(DSP)等,可以在另一個不同於內核運算所用的流程上得到更好的優化。 鑒於這些功能是相互分離的(在小晶片或Tile上實施),因此我們面臨的挑戰是在保持與單晶片接近的性能和功耗的同時,將這些功能全部整合到單個封裝。透過將高級介面匯流排(AIB)與支援將多個晶片異構整合到單個封裝的封裝技術相結合,可以輕易解決這個問題(圖1)。最近發布的AIB互連方案為晶片和小晶片互連提供了一種快速、靈活且有助於輕鬆布局的方法。本白皮書介紹了AIB的高級特性和用途,並將展示各種AIB功能如何支援大規模設計和實現可靠的高速連接。 圖1 AIB應用的一個示例,其中類比前端、訊號預處理和SERDES全部通過AIB連接到FPGA實現分類和物件追蹤。   AIB目標 在過去25年中,設備到設備介面使用複雜電路透過幾根電纜實現高速傳輸;PCI Express就是其中一個例子。AIB使用全新高密度封裝技術所支援的超寬平行介面,並一舉扭轉了這一趨勢。透過以相對較低的速度運行介面的每條電纜,可以簡化每個發送器和接收器的電路,並占用很少的晶片區域。 AIB將資料從一個小晶片上的微凸塊移動到另一台相鄰設備上的微凸塊。全新高密度封裝微凸塊的間距很小,進而減少了介面所需的空間。與使用間距130或150微米的凸塊的標準倒裝晶片封裝相比,高密度封裝技術通常支援間距為55微米的微凸塊。 與只能合理使用幾百根線路的傳統介面(如採用標準技術的DDR記憶體)相比,這種小間距允許單個AIB介面支援數千個訊號。單個AIB資料線的時鐘頻率為GHz,並具有多個配置和速度選項,以確保AIB可以支援各種應用。 儘管AIB沒有指定最大時脈速率,並且最小速率非常低(50MHz),但AIB卻能夠在高頻寬下運行,每條資料線的典型資料速率為每秒2Gb。每個小晶片都記錄了其預期的時脈速率範圍,以便選擇不同設備的設計人員可以確保它們以相容的速度運行。通常,時鐘的工作頻率常在1GHz或以下,但只要介面的兩端都支援更高的速度,系統便可以支援。 AIB是一種實體層(PHY)規範(圖2);它占據了OSI參考模型中的最低級別。它的一側連接到單獨晶片或小晶片上的相應AIB介面;另一側連接到媒體存取控制器(MAC)。它僅用於從MAC中獲取資料並將其發送到連接的晶片,或者從連接的晶片接收訊號並將訊號傳遞給MAC。 圖2 AIB是一種實體層規範。 焊墊(Footprint)被設計為在微凸塊間距的範圍內盡可能小。訊號被聚集在一起,以便更有效地利用晶片的邊緣(稱為海岸線),並提供快速且較短的低偏差訊號線。對於AIB Gen1,由於AIB介面中每條資料線的資料速率為2Gbps,因此避免了訓練和訊號調節(例如均衡和預加重),以保持較小的電路尺寸。業界常見的微凸塊間距為55微米,隨著技術的發展,未來的AIB支援低至10微米的微凸塊間距。 AIB配置 AIB有兩種基本配置。AIB Base適用於需要最少電路的羽量級實施。AIB Plus可以處理更高速度,並支援高速狀態下的可靠運行。 由於支援DDR功能,所以AIB Plus介面可以在2Gbps範圍內移動資料。但是,在此範圍內保持訊號偏差和收緊時序變得更加困難。延遲鎖相迴路(DLL)可幫助調整相位關係,而工作周期(Duty Cycle)校正(DCC)電路則有助於確保盡可能接近50%的時鐘工作週期。提供這些電路的初始化和校準以確保順利啟動和運行。 這兩種配置之間的最大差異與資料傳輸速率有關。AIB Base使用單倍數據速率(SDR)方案發出訊號;而除SDR外,AIB Plus還支援雙倍數據速率(DDR)訊令。借助DDR,資料可以在時鐘的上下邊緣傳輸,資料速率比SDR提高一倍(圖3)。 圖3 SDR 訊號每隔一個時鐘緣(在本例中為下降緣)進行傳輸。相比之下,DDR在下降緣和上升緣都進行傳輸,從而獲得兩倍的資料速率。 AIB架構 AIB介面包括I/O,這些I/O分組為本身可以堆疊成一列的通道。一列包含1、2、4、8、12、16或24個相同通道。55微米的微凸塊最多支持一個通道160個I/O;這個數字會隨著凸塊間距的減小而增加(圖4)。I/O塊如下所示,顯示了SDR和DDR(僅限AIB Plus)版本中的傳輸(TX)和接收(RX)塊(圖5)。 圖4 一列最多可包含24個通道;每個通道最多包含160個I/O。 圖5 SDR和DDR(僅限AIB Plus)TX和RX塊對比。 I/O方案旨在實現簡化,同時允許兩個主要安排。特定I/O將是TX或RX訊號;沒有雙向訊號。配置通道時,一個通道可以具有所有TX、所有RX或一半TX/一半RX(圖6)。 圖6 通道可以包含全TX、全RX或半TX/半RX訊號。 一方面,這種方案為處理可能正在接受輸入並將其傳遞給另一個晶片的小晶片提供了靈活性。另一方面,如果小晶片通過其接收輸入(例如記憶體)的同一介面返回結果,則可以使用平衡的TX/RX介面。 AIB有兩個介面:一個通過微凸塊連接到附近小晶片中的相應AIB介面,另一個連接到其自身小晶片中的MAC代碼。第一個介面由I/O、轉發時鐘以及初始化和校準過程中使用的控制訊號組成(圖7)。 圖7 連接到另一個AIB介面的AIB介面包含TX、RX、時鐘和控制訊號。 MAC介面則由執行與外部介面相同功能的訊號組成,但這些訊號的詳細資訊和特定電子格式有所不同。舉例來說,從MAC接收一個時鐘訊號作為單端內部訊號,而相應的時鐘訊號將作為兩個SDR訊號,並通過外部介面發送到相鄰的小晶片(即雙端時鐘)(圖8)。 圖8 儘管格式不同,但AIB到MAC介面包含與AIB到AIB介面相似的訊號。 高資料速率功能 在GHz速率傳輸下,時序很緊湊。訊號到訊號的偏移很重要,同樣地,時鐘到訊號的偏移和抖動也很重要。當時鐘的兩個邊緣都用於資料傳輸(DDR)時,工作周期也很關鍵。因此,AIB塊中已包含一些功能,尤其是支援雙倍數據傳輸速率的AIB Plus配置。 轉發時鐘 為確保在接收AIB塊中成功接收資料,用於傳輸資料的時鐘被轉發到接收端,後者可用於捕捉資料。該時鐘將進入到MAC中,因此AIB中不一定有時鐘域變更,但MAC中可能有變更。AIB Base和AIB Plus配置均提供此功能(圖9)。 圖9 兩種AIB配置都提供時鐘轉發,其中TX時鐘以雙端形式發送,以便針對正在傳輸的資料保持低偏移。 時鐘訊號以雙端時鐘的形式轉發,同時發送真實版本和反相版本,以將其重新轉換回接收端的單端時鐘。這樣可以保持時鐘訊號的品質,因為在重新組合雙端時鐘時,時鐘上的共模雜訊會消失。由於使用I/O單元發送時鐘的兩個版本以及資料,因此可確保邊緣對齊。 接收域時鐘 某些小晶片可能沒有自己的獨立時鐘源,而是傾向于利用與其相連的晶片或小晶片的時鐘。例如,記憶體可能只是在訪問該記憶體的CPU晶片的時鐘上運行。 還是以記憶體/CPU為例,當記憶體接收資料時,例如要獲取資料的位址,轉發時鐘將使記憶體與CPU晶片保持同步。但是,當記憶體發送回提取的資料時,它需要一個時鐘,並且轉發時鐘僅影響接收捕捉,而不影響傳輸。因此,可以將CPU晶片時鐘(在本例中為從記憶體中接收資料的時鐘)作為記憶體的傳輸時鐘。該時鐘被稱為接收域時鐘,僅在AIB Plus介面中可用。 在圖10中,可以看到使用接收域時鐘的TX單元。在本例中,該時鐘被發送到MAC。在MAC中,該時鐘將被返回並用於傳輸時鐘,然後將其轉發回接收端。在這種情況下,轉發時鐘實際上與原始接收時鐘相同,因此看上去效率很低。但該圖會讓人產生一些誤解,因為各種時鐘訊號都不完全相同,它們的相位不同。透過獲取接收域時鐘並將其轉發回接收端,可以確保該時鐘與正在傳輸的資料之間的邊緣對齊。請注意,儘管MAC接收了接收域時鐘,但並不需要使用它傳輸資料;它可能有一個單獨的時鐘域用來傳輸資料。以下僅是一種可能的配置。 圖10 AIB Plus介面可以使用接收域時鐘進行傳輸(然後將其轉發回接收域)。 工作周期校正 對於DDR資料交換,根據規範,用於時鐘的工作周期變化幅度不能超過3%,因為兩個邊緣均用於資料計時。在沒有說明的情況下,1Ghz(意味著2Gbps資料)是一個極為嚴格的規範。因此,AIB Plus指定工作周期校正(DCC)模組。從技術上來說,校正塊不是必須的,但是實際使用中極有可能需要它(圖11)。 圖11 工作周期校正電路說明滿足AIB Plus介面上DDR資料交換的嚴格工作周期規範。 前向時鐘相位調整 同樣,在DDR連接的接收端,前向時鐘可能在發送和接收小晶片之間增加額外的偏差。在這樣的速率下,微小的相移可能引發問題,因此需要為AIB Plus指定延遲鎖相迴路。這也是可選的,但是極有可能需要它來確保在系統在所有情況下都能平穩運行(圖12)。 圖12 延遲鎖相迴路可幫助糾正任何鎖相失真,後者會限制AIB Plus介面上的運行速度。 重定時 在雙倍數據速率下,透過AIB介面輸出資料的ASIC或FPGA難以滿足資料路徑時序的要求。AIB Plus實施具有對I/O模組之前的模組進行重定時的選項。使用者可以靈活定義重定時的工作方式。可以簡單地使用一個或兩個寄存器分解資料路徑,以便更輕鬆在完整的電路上實現時序收斂;也可透過增加FIFO添加時鐘相位補償(圖13)。 圖13 可選的AIB Plus重定時塊可幫助簡化ASIC或FPGA時序收斂 例如英特爾的FPGA應用通常使用相位補償FIFO,即使晶片將相同的參考時鐘用於內核和I/O,這些時鐘的相位差也可能差異巨大或未知。相位補償FIFO確保正確的跨時鐘-相位域,一般來說,AIB並不指定重定時的具體方式,但很可能需要至少一個重定時觸發器。 AIB物理布局 AIB的設計簡化了與小晶片的連接,通道內的訊號在凸塊行中消除。凸塊行的數量保持最低,此外,必須滿足線路長度和路由的要求(圖14)。將AIB訊號分配給微凸塊影響了該平衡,凸塊分配也進行了調整,使凸塊之間的線路在長度上大致相等,最大限度減少中介層引發的訊號偏移。 圖14 55微米微凸塊被交錯安排在每一行中。凸塊被分配以確保線路長度較短且相同。 所有訊號均並列,最大限度降低了介面對凸塊布局的影響。例如,其他任何非AIB訊號都不會將凸塊放置於AIB使用的任何區域內。這也規定了如何使用晶片或小晶片端AIB介面的最小海岸線。當然,產生的總海岸線將取決於每通道的訊號數量和一列中的通道數量(圖15)。 圖15 AIB連接可以通過中介層上的線路實現,也可以使用英特爾EMIB橋接等橋接技術實現。 在正常AIB操作期間,介面兩端沒有差別。但是在啟動期間,兩端中的一端需要控制並跟蹤初始化和校準序列。只有在啟動階段,介面的一端做為主控埠,另一端做為從埠。無論介面是主控埠還是從埠,都將記錄在晶片或小晶片資料表中。主控埠必須連接從埠,從埠必須連接主控埠(圖16)。 圖16 AIB主控埠必須連接AIB從埠;AIB從埠必須連接AIB主控埠。 在某些實例中,可能需要一定的靈活性,以便將介面的一端做為主控埠或從埠。這種介面被稱作雙模介面,如果連接主控埠,可以將其配置為從埠;如果連接從埠,可以將其配置為主控埠。 雖然每列的所有通道都是相同的,但為了方便起見,通道都進行了編號。這些編號對AIB來說沒有任何意義,而且所有通道都可以用於任何用途。不過在某些情況下,如果通道在OSI堆疊中以較高的級別連接,那麼對於特定應用來說,不同的通道之間有著順序和重要性之分。根據小晶片的排列方向,通道可以反向連接。 換句話說,如果有12條通道,那麼在某些情況下,一側的通道0可以連接另一側的通道0,而在另一些情況下,通道0可能連接通道11。大多數情況下,通道0和通道11是相同的,因此這種反向連接沒有任何問題。如果這有關係,那麼在通道順序非常重要的情況下,MAC中可能需要反向連接通道。 冗餘 AIB連接可能涉及多達3,840個I/O,在中介層中以軌跡的形式實現。相對於生產線故障的數量來說,中介層成品率可能很高,但線路眾多,也存在單個故障毀掉整個組裝的風險。99.9%的線路成品率仍然可能是0%的模組成品率。為提高模組成品率,AIB支援兩種類型的冗餘。 I/O參與的主動冗餘。如果發現連接錯誤,所有前往介面中心的訊號將轉移至相鄰微凸塊,利用中間的兩個空閒訊號。這種單線路故障可以按通道逐一排除,以提高成品率。 測試時可以啟動這種冗餘,在模組中保存轉移位置,系統上電時,正確的連接將出現在轉移後的位置。兩個訊號會在最早的上電階段—使用主動冗餘之前被使用。對於這兩個訊號,使用的是被動冗餘。這相當於每個訊號會使用兩個凸塊,如果其中一個連接失敗,另一個連接可保持完整。 AIB與SerDes延遲對比則如表1所示。AIB的延遲相比典型串列器/解串器(SerDes)大幅降低。JESD204C實施要求進行傳輸層映射、64B/66B編碼/解碼,以及串列/解串,因此數位延遲較長。SerDes模擬延遲較長,主要因為需要在單端和差分間轉換,以及進行時鐘資料恢復。 AIB未來發展趨勢 直接射頻類比數位轉換器(ADC)/數位轉換器等超高頻寬應用將繼續推動AIB提高頻寬、減少占用空間和降低能耗。借助精心的I/O設計,資料速率將實現翻倍,達到4Gbps。 隨著高密度封裝技術的不斷改進,產業標準的微間距將大幅縮小,目前是55微米,未來可能縮小至1微米。為了將每位能耗降低至0.5皮焦耳以下,I/O電壓擺幅可降低至0.4V。後代AIB與前代AIB元件之間的相容性至關重要,將成為未來實現AIB改進的重要因素。 總而言之,AIB介面可實現晶片和小晶片之間的新型短程高速連接,可將資料傳輸速率提升高達2Gbps(甚至更高);支援超過3,000個收發訊號;採用緊湊型晶片布局,以最大限度地降低晶片占用空間;並運用微凸塊技術,最大限度地縮小凸塊間距;精心設計的訊號布局和時序電路有助於保持高速訊號的微小偏移,而冗餘可幫助確保高成品率。 (本文作者為英特爾可程式設計解決方案事業部研究科學家)
0

政策推動應用大舉擴散 FPGA搭上區塊鏈熱潮

中國中央政府月前拍板定案,將把區塊鏈技術作為核心技術自主創新的重要突破口,並使區塊鏈技術的整合應用在新的技術革新和產業變革中發揮重要作用。消息一出,已經低迷一陣子的中國區塊鏈相關業者,重新獲得資本市場關注。 但值得注意的是,根據中國中央政府的規畫,區塊鏈技術不只會應用在數位貨幣的發行上,同時也會推動政府服務、金融業、醫療業與製造業的變革,這將為區塊鏈技術打造出更寬闊的舞臺。 擴大區塊鏈應用範疇 硬體加速是關鍵 FPGA大廠賽靈思,對區塊鏈技術的應用前景也有很高的期待。賽靈思技術長Ivo Bolsens(圖1)指出,目前區塊鏈技術最主要的應用雖然還是在發行數位貨幣上,但其實在其他產業,也有許多業者正在導入區塊鏈技術,例如能源產業、運輸物流、醫療、供應鏈管理,甚至連媒體產業也已經開始嘗試利用區塊鏈技術。 圖1 賽靈思技術長Ivo Bolsens表示,除了數位貨幣外,區塊鏈技術還有很多可以派上用場的地方。 區塊鏈毫無疑問地是個擴散性很強的技術,而這會導致一個無可避免的問題--分歧跟變異。區塊鏈技術的核心概念是分散式帳本,屬於通用觀念,但是當區塊鏈在不同垂直產業實際應用時,或多或少會把該產業的獨特需求納入,使其更加貼近產業應用的實際需要。 以能源業為例,如何逐步擴大區塊鏈的規模,讓能源供應商的每個客戶都能被納入區塊鏈網路,甚至支援跨國能源服務,就是能源業者最關心的問題。隨著區塊鏈上的參與者數量增加,交易筆數會跟著上升,如何減少每筆交易的處理時間,就會變得非常關鍵。 舉例來說,如果一家電力公司只跟少數幾家用電大戶導入區塊鏈,每小時的預估資料交易量大概只有3萬筆,但如果該電力公司跟所有用電戶都用區塊鏈進行帳務結算,每小時的預估交易量就會大增到300萬筆。萬一是在電業自由化的市場,一個電網裡面有多家供應商的時候,整個區塊鏈系統每小時的預估交易量還會進一步暴增至15億筆。如果情況更複雜,涉及跨國電網的交易,每小時交易量恐怕會是1,500億筆這等天文數字(圖2)。 圖2 區塊鏈技術要應用在其他產業,首先會遇上的挑戰就是天文數字般的運算規模。 目前的區塊鏈是純軟體技術,每個小時能處理的最大交易筆數能達到10億筆這個數量級,大概就已經是極限。因此,區塊鏈技術如果要應用在能源這個產業,其演算法必然要經過最佳化,而且還要輔以硬體加速技術,才能滿足應用需求。 硬體加速方法眾多 ASIC/可編程方案對決 由於區塊鏈要大規模應用在各種垂直領域,首先會遇到CPU運算力不足的問題,因此硬體加速是必然的需求。ASIC、GPU與FPGA等不同領域的廠商,都在這裡嗅到發展機會,但不同的加速技術,先天上有其各自的優劣勢,因此,有意採用區塊鏈的業者,必須依照個別應用的需求特性進行選擇。 直接針對特定的區塊鏈演算法設計ASIC加速器,例如比特幣挖礦專用晶片,是加速效果最好的解決方案,但這種作法需要相當龐大的市場規模支撐,特別是在先進製程的設計跟製造成本越來越昂貴的情況下,只有少數規模夠大的應用,才能支撐得起ASIC解決方案。 但即便是數位貨幣挖礦應用,也不是每種數位貨幣都適合使用ASIC,因為有些數位貨幣的發行方,本身就對ASIC方案持反對態度,甚至不惜更改演算法,讓ASIC加速器失效。例如也有一定知名度跟流通性的乙太坊(Ethereum),就對ASIC加速器非常反感,理由是ASIC加速器會使得數位貨幣持有者的集中度提高,跟分散式帳本原本的設計用意產生矛盾,並引發許多潛在問題,例如貨幣價格容易被操弄,或交易紀錄更容易被竄改。 區塊鏈技術最獨特的地方,在於提出了分散式帳本的概念,這使得駭客即便攻破系統中的某個節點,竄改其帳本上的部分資料,跟其他節點上的帳本資料一比對,立刻就會被發現,除非駭客同時攻破了足夠數量的節點,並進行資料竄改。 而且,為了簡化運算跟儲存空間的需求,通常每一個分散式帳本都只有整體資料的一部分,這使得駭客更難以竄改資料,因為即便攻破多個節點,取得的帳本資料上,不一定含有駭客想竄改的那筆資料。 簡言之,帳本越分散,透過區塊鏈保護的資料越難被竄改。而這正是區塊鏈技術可以用來打造物聯網信任根(Root of Trust)的原因。試想,當一個物聯網中的資料被分散到數以千計、甚至萬計的節點中,而且每個節點所擁有的資料又只有整體資料的一部分時,要破壞資料一致性(Data Integrity)的難度會有多高? 是故,當區塊鏈的節點減少,或是分散式帳本高度集中在少數幾個持有者手上時,區塊鏈技術原本因為採用分散式帳本而享有的眾多優勢,都將隨之消失。這正是許多數位貨幣的發行者之所以想方設法,甚至不惜更動演算法來對抗ASIC挖礦的原因--試想,當大多數數位貨幣都集中在少數持有者手上,萬一這些持有者共謀竄改交易內容,區塊鏈技術能如何反制? 也因為如此,具有可編程特性的GPU跟FPGA,在區塊鏈應用變得更多元化時,會有更好的適應能力。而且在許多應用情境中,使用可編程方案的成本效益會比採用ASIC來得更具優勢,因為ASIC需要相當大的市場規模來支撐。 而與GPU方案相比,FPGA可適用的場合更為多樣化。GPU只能把原本靠CPU執行的區塊鏈演算法轉移到GPU上執行,從而實現加速,但FPGA不然,FPGA除了可以做為CPU的協處理器之外,也可以運用在網路卡跟儲存控制器上,這會帶來不同的效果。 作為CPU的協處理器,FPGA加速可以縮短交易確認時間,提高交易率;但如果把區塊鏈算法放在基於FPGA的網路卡上執行時,除了縮短交易確認時間還可以帶來擴大區塊鏈網路規模的效果;若是與儲存控制器整合,則可以擴大每個區塊的資料量。 區塊鏈將成為網際網路3.0的基礎 Bolsens總結說,目前區塊鏈最主要的應用是發行數位貨幣,但其核心概念--分散式帳本,將會廣泛應用在各行各業,最終,我們很可能會看到的情景是區塊鏈成為網際網路3.0(Internet 3.0)的核心。 隨著電子商務跟網路金融服務越來越普遍,透過網路進行各式各樣的交易,已經是我們習以為常的生活行為。但在目前的網際網路架構中,還沒有把信任(Trust)的元素嵌入到網路架構裡面,而是在既有網路架構上添加各種認證機制,或是把區塊鏈當作一種外掛,來打造網路交易的信任根(Root of Trust),但這會增加交易的延遲,降低網路的輸送量。 因此,區塊鏈技術未來勢必會跟網路基礎設備進行一定程度的整合,如此方能提高網路的運作效率。當然,這不是一朝一夕就會發生的改變,就像電子商務的普及,也有一段長達數年的醞釀期,但長遠來看,許多網通設備都會有支援區塊鏈功能的必要性,而賽靈思也正在為此趨勢作好準備。
0

萊迪思發布新設計軟體加速FPGA設計

萊迪思半導體公司(Lattice)日前宣布推出廣最新版本FPGA軟體設計工具Lattice Radiant2.0。除了增加對於更高密度元件的支援,如全新的CrossLink-NX FPGA系列外,更新的設計工具還提供了新的功能,加速和簡化基於萊迪思FPGA的設計開發。 萊迪思軟體產品線資深經理Roger Do表示,Lattice Radiant 2.0設計軟體為開發人員提供更符合設計習慣的使用者體驗,該工具將引導他們完成從設計創建到IP導入,從實現到位流生成,再到將位流下載到FPGA的整個設計流程。讓幾乎沒有使用FPGA的開發人員能夠快速利用Lattice Radiant的自動化功能。對於有經驗的FPGA開發人員,如果需要特定的優化,Lattice Radiant 2.0也可以對FPGA設置進行更精細的控制。 當系統開發人員評估選擇硬體平台時,實際的硬體只占他們選擇標準的一小部分。他們還會評估用於配置硬體的設計軟體其易用性和支援的功能,因為這些功能可能會對整體系統開發時間和成本產生重大影響。 Radiant 2.0中提供的新功能更新包括:晶片上除錯工具,允許使用者即時進行錯誤修復。除錯功能使開發人員可以在其代碼中插入虛擬開關或LED來確認功能的可行性。該工具還允許使用者更改硬核IP的設置以測試不同的工作模式。改進的時序分析可提供更準確的走線和布線規劃以及時脈時序,從而避免設計擁塞和散熱問題。工程變更命令(ECO)編輯器使開發人員可以對完成的設計進行增量更改,而無需重新編譯整個FPGA資料庫。同時性邏輯轉換(SSO)計算機分析單個引腳的訊號完整性,以確保其效能不會因靠近另一個引腳而受到影響。
0

英飛凌聯手各界強化聯網及ICT安全防護機制

聯網機器與ICT系統尤其需要強大安全防護機制,並且在其長期使用週期中維持高度安全性。面對長期的承受攻擊意味著必須透過更新機制維持最先進的防護狀態。歐洲ALESSIO聯合專案的目標旨在研究和評估此種可更新的安全機制,專案成員於自動化產業的主要貿易展SPS的VDMA論壇中展示其研究結果。 在英飛凌(Infineon)領導下,佛朗霍夫應用及整合安全研究院(AISEC)、Giesecke+Devrient Mobile Security、西門子(Siemens)、慕尼黑工業大學(TUM)及WIBU-SYSTEMS等公司,自2016年以來持續針對聯網運算應用及嵌入式系統,開發晶片式解決方案與原型。ALESSIO獲得德國聯邦教育與研究部(BMBF)約390萬歐元的資助,並計畫於2019年12月31日結束。 每個新聯網裝置都是潛在的網路攻擊閘道。敏感的公司資料與資訊可能會被擷取並遭到惡意使用,以進一步攻擊。因此裝置上任何攸關安全的重要資訊,都必須倚賴軟硬體的雙重防護,才能獲得可靠的保障。雖然軟體仍可透過後續修改,硬體或安全晶片一旦整合,就能受到防止被遠端操控的保護。安全晶片可比擬為保護嚴密的區域,在其中,資料及安全相關資訊會與軟體分開存放。儘管如此,安全區域本身仍必須有更新的方法,因為攻擊手段會隨著時間日新月異。 ALESSIO專案成員展示兩種不同技術方法實現可更新的安全解決方案,包括使用具有可更新軟體的晶片式安全元件,以及實作於稱為FPGA可程式邏輯裝置的可更新安全元件,其中的硬體元件可在運作期間安全更新。上述兩種方法皆可長期有效地管理並確保ICT網路與安全相關資料的安全。
0

滿足高效/低成本需求 Chiplets市場蓄勢待發

人工智慧(AI)、車聯網、5G等應用相繼興起,且皆須使用到高速運算、高速傳輸、低延遲、低耗能的先進功能晶片。為此,晶圓代工、封裝業者除了持續朝先進製程(5奈米、3奈米)邁進外,也開始研發新一代製程技術以突破摩爾定律瓶頸,而Chiplets可實現更小更緊湊的運算系統結構,因此備受矚目,眾多半導體廠已相繼投入,相關產品也紛紛問世。 高效/低成本是Chiplets崛起關鍵 益華(Cadence)產品市場總監孫自君(圖1)表示,人工智慧與5G快速興起,相關應用陸續浮現,成為推動半導體產業未來成長的重要動力。這些應用皆需採用高速運算、高速傳輸、低延遲、低耗能的先進功能晶片。不過,製程微縮技術變得愈來愈困難,例如為了因應各式AI應用,晶片需更高的運算效能,這使得處理器核心數量、所搭配的記憶體容量、I/O數目都急速增加,要整合的元件數量越來越多,即便是使用先進製程,要將晶片尺寸更進一步縮小仍是十分吃力。 圖1 益華產品市場總監孫自君表示,晶片小型化不僅複雜且成本昂貴。 孫自君進一步說明,即便成功小型化之後,仍還有許多要素須考量,例如功耗、散熱等。小型化意味著將各種元件整合在一起,進行運算時所產生的熱能要如何有效的散熱是一大關鍵,因為熱會影響元件電性能力;另外,要達到更好的運算效率,也意味著功率損耗愈多。換言之,晶片小型化要兼具效能、體積、低功耗、散熱等多種要素,要在這麼小的空間實現這麼多(或是做更多)的事情,難度很高;若再從IP的角度思考,要將各式各樣的IP(如記憶體IP、微控制器IP、類比線路IP等)整合在一起,接著進行各種組合試算和驗證,同樣也是要花費許多時間。所以,晶片微縮過程可說既精密又複雜,也使得造價變得更加昂貴。 孫自君指出,業者都是追求獲利,而如何降低成本是最基本的考量,隨著晶片微縮變得越來越複雜、成本也越來越高,業者也會開始思考,究竟是不是所有晶片都需要小型化,畢竟不是所有公司都有能力投入,也不是所有應用都需要非常高的運算效能。也因此,IC設計業、晶圓代工、封裝業者轉向發展晶片小型化外的製程技術,Chiplets的概念及方式也因而開始受到關注。 工研院產科國際所分析師楊啟鑫表示,Chiplets屬於業界因為摩爾定律面臨瓶頸所做的技術替代方案,更早則是源於1970年代誕生的多晶片模組。小晶片是指由多個同質、異質等較小的晶片組成大晶片的概念。先進製程成本急速上升,是故以小晶片方式以提高良率及降低晶片成本。小晶片可以減少晶片設計時程,加速晶片Time to market時間。 楊啟鑫補充,電子終端產品朝向高整合趨勢發展,對於高效能晶片的需求持續增加,然而,隨著摩爾定律逐漸趨緩,在持續提升產品性能過程中,如果為了整合新功能晶片模組而增大晶片面積,將提高先進製程大晶片成本和面臨低良率問題。而不同於SoC晶片,將大尺寸的多核心設計分散到較小的小晶片設計更能滿足現今的高效能運算處理器。此彈性的設計方式可以讓晶片功能分散到以不同製程技術生產的個別小晶片中,提升設計靈活性、更好的良率及節省成本優勢。 換言之,讓高效能晶片使用最先進製程製造,其他則使用符合經濟效益的製程製造(如I/O晶片、記憶體晶片)。從原來設計在同一個SoC中的晶片被分拆成許多不同的小晶片分開製造再加以封裝或組裝,故稱此分拆之晶片為小晶片Chiplets。 總結來說,Chiplets有著三大好處。首先,採用7nm、5nm甚至3nm等先進製程設計SoC的成本相當高昂,特別是模擬電路、I/O等愈來愈難以隨著製程技術縮小;而透過Chiplets則可以克服此一挑戰,因Chiplets是將電路分割成獨立的小晶片,並各自強化功能、製程技術及尺寸,最後整合在一起。此外,基於Chiplets還可以使用現有的成熟晶片降低開發和驗證成本。 接著,Chiplets可以滿足規模較小、較具成本考量的產品。如同前面所述,先進製程SoC造價昂貴,對於許多業者而言,其公司規模及產品銷售量並不足以支撐先進製程的成本;因此,Chiplets遂成為一種切實可行且具吸引力的方式。 至於第三個好處便是,與使用先進製程、從頭開發SoC相比,Chiplets可以加快產品上市時間,越快推出產品,這就意味著可以越早占領市場,提高潛在收入與競爭優勢。 孫自君補充,當然,除此之外,Chiplets還有著IP重用(IP Reuse)、靈活設計、低成本訂製等特點。特別是IP Reuse,目前像是藍牙、Wi-Fi都已有成熟、完整的IP,若是要將這些IP也都採用先進製程,就必須重新開IP,將IP換成5nm、3nm,接著再付一次IP授權費,以及再付費給晶圓代工業者,再加上後續的驗證、PCB板測試等,這花費的時間和成本太大;也因此,Chiplets的出現對IP Reuse起了很大的作用。 半導體業加快Chiplets產品腳步 顯而易見,在製程微縮技術只有少數幾家晶圓代工、IC製造業者可發展的情況下,異質整合(Heterogeneous Integration Design Architecture System, HIDAS)成為IC晶片的創新動能,Chiplets便趁勢崛起,成為半導體產業熱門話題,IC設計業者、IP供應商、晶圓代工廠等也開始加速產品布局。 英特爾/AMD產品競出 英特爾(Intel)日前所發布的Intel Stratix 10 GX 10M FPGA便是採用Chiplets設計(圖2),以達到更高的元件密度和容量。該產品是以現有的Intel Stratix 10 FPGA架構及英特爾先進的嵌入式多晶片互連橋接(EMIB)技術為基礎所設計,運用了EMIB技術融合兩個高密度Intel Stratix 10 GX FPGA核心邏輯晶片(每個晶片容量為510萬個邏輯單元)以及相應的I/O單元。 圖2 英特爾近期發布的Stratix 10...
0

BittWare宣布與Achronix協作推出PCIe加速卡

莫仕(Molex)集團旗下公司BittWare宣布已經與半導體公司Achronix達成協作關係,即將推出S7t-VG6 PCIe加速卡──這是一種多功能PCIe卡,支援全新Achronix 7奈米Speedster 7t FPGA。此下一代產品提供一系列功能,包括成本低的GDDR6記憶體,可提供HBM級的記憶體頻寬,以及高效能的機器學習處理器和革命性的2D片上網路,實現高頻寬與高能效的資料移動。 Achronix首席執行長Robert Blake表示樂見與BittWare及Molex集團協作,發布全新VectorPath S7t加速卡,市場對於Achronix新產品反應積極。為向客戶提供在卡片級別和伺服器級別針對Speedster7t設備開展快速評估並轉向批量生產,需具設計經驗及必要物流能力的合作夥伴,支援不斷增長的全球客戶。建基於FPGA的PCIe卡和伺服器市場的BittWare便成為選擇。 至於BittWare總裁Jeff Milrod表示對此充滿信心,該公司三十年來針對高需求應用成功開發並部署處理技術。Achronix正向FPGA市場引入各種新途徑、架構與實施方式。隨著S7t卡推出,將提供良好記憶體頻寬以及高速儲存、網路和主機介面,並在性價比和能效達新水準。把Speedster7t上的創新結合到BittWare的經驗及在加速卡IP上的知識,將會為資料中心、雲端基礎設施和企業解決方案提供平台。
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -