- Advertisement -
首頁 標籤 Data Center

Data Center

- Advertisment -

技術規格全方位精進 DDR5發展動能十足

2020年7月14日記憶體技術標準的領導組織JEDEC正式發布新一代的記憶體標準DDR5 SDRAM,標準編號JESD79-5,並收取369美元的下載費用。DDR記憶體自1998年開始倡議與運用至今已來到了第五代,每一代約在產業使用4至7年時間,在DDR4技術逐漸難以提升、難以滿足更高要求下,產業將迎向使用DDR5(表1)。 DDR5期望運用於兩個領域,一是用戶端系統(Client System),即個人電腦;另一是資料中心(Data Center),即伺服器。其他領域與裝置尚非其運用目標。DDR5運用何種技術提升而能滿足更高要求,本文以下將對此探討。 降低運作電壓/提高資料傳輸率 DDR記憶體每次改朝換代,均會因應更先進縮密的半導體製程而降低運作電壓,DDR5確定使用1.1V,較DDR4低0.1V。若檢視歷代的DDR記憶體運作電壓可發現,運作電壓的降幅愈來愈小,從0.8V、0.7V降至0.3V,而今僅降0.1V,此並非是記憶體所獨有,而是整體半導體產業均面臨的技術課題。更低的電壓也意謂著在電晶體漏電受控制下可以更省電,不過也意謂著電壓準位更難精準控制,對此一挑戰後頭將再敘述。 同時DDR5預估以4.8GT/s(T為Transfer)傳輸率起跳,較DDR4發展至最後段的3.2GT/s快上50%,未來也將持續提升,預計將能比DDR4快一倍,達6.4GT/s,甚至是8.4GT/s。DDR5能夠提升傳輸率的原因在於使用決策回授等化器(Decision Feedback Equalization, DFE),可以使傳輸訊號少受干擾、更清晰。 晶片內實現ECC DDR4與更之前的記憶體均採行資料記憶體、錯誤糾正碼(Error-Correcting Code, ECC)記憶體各自分離的設計,如此等於在記憶體模組(Dual In Line Memory Module, DIMM)的板卡上多占據一點印刷電路板(Printed Circuit Board, PCB)面積,進而排擠可放的DRAM記憶體顆數。 新的DDR5主張直接運用更先進縮密的製程技術,把ECC的功效電路直接做進DRAM裸晶內,每顆DDR5記憶體晶片內都帶有ECC功效,如此有機會增加每一條DIMM模組上的晶片與容量,此一新特點也稱為On-die ECC。 單顆晶片加大容量/延長爆發長度 Rambus的相關文章認為DDR4每一個記憶體顆粒最高容量為16Gb,實務上美光(Micron)、三星(Samsung)已有32Gb容量,海力士(Hynix)則為16Gb。不過DDR5被寄予單顆更高容量的厚望,目前預估單顆最大容量達64Gb,意謂著能在不增加DIMM上的記憶體顆數下直接讓容量倍增。 DDR5也增加爆發(Burst)長度,DDR4為BC4、BL8,DDR5將為BC8、BL16,此一強化提升同樣著眼在提升記憶體系統的整體存取效率。爆發長度提升使DDR5一次就可以傳遞64Bytes的資料,這剛好是典型CPU裡一條快取線(Cache Line)的資料量,此意謂著一次爆發週期剛好滿足CPU的資料需求,省去再次存取,同時也沒有無效傳遞。 管理匯流排升級 自DDR3開始至今DDR系列的記憶體在系統管理上均採行Serial Presence Detect(SPD)介面,主機板上的記憶體控制器(即晶片組或已整合至CPU內的晶片組電路)透過SPD介面與DIMM記憶體模組溝通聯繫,DIMM上有一專設的Electrically-Erasable Programmable Read-Only Memory(EERPOM)記憶體,在此應用情境下稱為SPD記憶體,該記憶體內存放著該條DIMM上的各種組態配置資訊、參數資訊,如容量、傳輸延遲(Latency)等。 不過DDR5不再使用SPD介面,而是改用I3C介面。I3C介面是由Mobile...
0

AI應用紛起 推論晶片炙手可熱

近年人工智慧(Artificial Intelligence, Al)熱潮帶來演算法、軟體、硬體等新發展,為了加速AI運算,半導體產業也積極開發對應的晶片,雖然早前於2005年業界即提倡過往只用於遊戲的繪圖處理器(Graphic Processing Unit, GPU)能有更多運用,如視訊剪輯(影片編碼轉檔)、高效能運算(High-Performance Computing, HPC)等,期望從遊戲娛樂專用轉向廣泛性運算,稱為GPGPU(General-Purpose GPU),但直至近幾年方由NVIDIA的Tesla系列帶動AI加速晶片熱潮。 Tesla系列雖取得市場先機,但AI技術與市場逐漸演變出不同需求,一是依據布建位置的不同分成資料中心(Data Center, DC)、邊緣(Edge)兩類,前者位於集中且有密集設備的資訊機房內,後者則裝設在各種需求現場,例如視訊監控的攝影機、機箱閘道器及自駕車內等。 另一則是依據AI程式開發與運用兩階段區分,AI程式在開發過程中也稱為訓練學習(Training)階段,開發完成後用於辨識或預測則稱為推論(Inference,亦稱為推理、推算、推測)階段。 推論晶片成長潛力佳 因應上述需求,AI晶片也必須改變發展,由於資料中心有源源不絕的電力因而於AI晶片設計時以效能為優先,晶片與晶片加速卡可動輒數十、數百瓦功耗;邊緣則須在用電上有所節制,攝影機可能僅以網路線方式取得若干電力(Power over Ethernet, PoE),因此晶片多必須低於10瓦,甚至僅1瓦、2瓦,閘道器亦僅比攝影機寬裕些;自駕車則因有汽車電瓶支撐且需對外界變化快速反應運算,因此為數十瓦、上百瓦電能。 除因應布建環境對功耗設計要求外,AI晶片因訓練、推論兩階段的不同也須改變,訓練階段由於AI的特徵、演算法、權重參數等均未定,需多方嘗試與調整,所以需要較高精度、較高位元數的運算,如32位元浮點數;訓練完成後則有機會簡化,調整成較低位元數,或將浮點數轉成整數,如16位元浮點數或8位元整數等。 事實上AI演算法仍持續精進,過去訓練以32位元浮點數為主,也開始出現16位元、8位元的浮點數訓練,如IBM於2018年的研究發表,推論可降至8位元整數,甚至出現4位元整數、2位元整數(圖1)。 圖1 IBM研究顯示AI訓練、推論的精度需求均持續降低中。 雖然用於訓練的AI晶片也能用於AI推論,但以32位元浮點數為主的處理單元執行8位元整數,在電路面積與功耗等方面並不經濟,且多數認為未來AI推論的需求將遠大於AI訓練。一個AI應用程式在一年內僅會數次調整參數而重新訓練開發,但訓練完成後則是全年隨時在推論執行(如臉部辨識的門禁系統),因此經濟節能的推論運算成為晶片商新焦點,甚至其市場會大於訓練用AI晶片市場。再將資料中心、邊緣、訓練、推論四者交叉權衡考量,由於訓練必須耗用大量且長時間運算,幾乎只會在資料中心內進行;即便不在資訊機房,亦僅在研究單位的桌上型電腦系統上進行,依然屬於偏重度用電的後端系統,短期內訓練不易在邊緣端進行,除非演算法、軟體面有重大突破,或僅為簡易少量訓練,邊緣大致上為推論晶片市場。 至於資料中心,原有高位元、高精度的AI晶片將持續用於訓練,但將逐漸導入推論專用晶片以便提升資料中心的經濟效益,除非在所有推論晶片均已投入運算仍無法滿足需求時,方才調用訓練用AI晶片轉而投入推論運算,屬應急性調度。 在分析前後端、訓練推論的四種情境後,2019年1月麥肯錫(McKinsey)發表的專文對四個市場進行預測,認為後端推論市場將有最大成長潛能(圖2)。 圖2 McKinsey&Company對四類型AI硬體市場的預估。 機房AI訓練/推論晶片各有方案 機房AI推論晶片有可能為最大潛力市場,然而機房訓練與機房推論的分際為何,一是晶片商發表晶片時即明確定義市場取向,如英特爾(Intel)Nervana的NNP-T/NNP-I晶片,前者為機房訓練晶片,後者為機房推論晶片;又如Intel近期購併的以色列Habana Labs,其機房訓練晶片為GAUDI方案,機房推論晶片為GOYA HL-1000晶片。 或者百度(Baidu)的818-300為訓練晶片,818-100則為推論晶片;NVIDIA亦採訓練、推論分別推展策略,其T4/Tesla T4即為推論專用晶片,有別於Tesla V100訓練晶片。 不過也有業者只專注於機房訓練或機房推論,例如谷歌(Google)的Cloud TPU並未有推論專用版,仍為訓練、推論合一,Google僅在邊緣推展推論專用晶片,即Edge TPU;亞馬遜AWS(Amazon Web Services)只自主發展用於推論的Inferentia晶片,訓練仍屬意使用NVIDIA Tesla;高通(Qualcomm)Cloud AI...
0

資料中心內部介面大提速 PCIe Gen4測試步步為營

在資料中心內部,各種設備/裝置使用Ethernet100G/200G/400GbE作為外部連結介面,PCIe則是被廣泛用作內部數據傳輸的介面。PCIe主要做為電腦系統內部的通用傳輸介面。剛開始PCIe Gen1傳輸速率為2.5GTps,可相容PCI介面,隨著傳輸需求的發展PCIe Gen2的速度為5GTps,PCIe Gen3的速度為8GTps;目前PCI SIG最新的規格PCIe Gen4速率提升到16GTps。此外,PCIe Gen5傳輸速率預計提升到32GTps,PCI-SIG正在制定相關的規格。 PCIe Gen4傳輸速率高達16GTps,不僅僅是使用在一般的電腦裝置中,更是被廣泛地運用到各種設備的內部傳輸介面,例如傳輸設備、伺服器、儲存裝置等。 傳輸速率越高,訊號的傳輸衰減越大,使得從訊號發射端(Tx)到接收端(Rx)傳輸過程所產生的衰減也跟著增加,過大的衰減將導致訊號劣化,使得接收端無法做訊號判別接收。也因此,PCIe Gen4的Tx和Rx端均使用了等化器(Equalization),以補償高速訊號傳輸的衰減,接收端的誤碼率(BER)測試驗證是必要的。 Link EQ為Gen3/Gen4測試新需求 PCIe裝置在連接時,會進行LinkEQ溝通,將TRx EQ做最佳化設定,如此一來也使得Tx和Rx間的Link Equalization(Link EQ)成為PCIe Gen3/Gen4 TxRx新測試需求。接收端測試設備誤碼儀(BERTs)這時候須具備Protocol溝通能力,在執行TRx LinkEQ測試時,扮演與待測物溝通的角色,讓待測物與儀器進行溝通設定好最佳TRx EQ後,進行後續誤碼(BER)驗證(圖1)。 圖1 Anritsu MP1900A PCIe Rx測試架構 隨著各種傳輸介面如TBT3、USB、PCIe傳輸速率越來越快,接收測試變成是必須的驗證項目。工程師須藉由誤碼儀提供協會規範的Stress訊號來進行接收端品質驗證。而Rx LinkEQ壓力測試在PCIe Gen3後變成是Certification必要項目。在整個測試流程中包含的訊號校正(Calibration),Link Training與BER測試。 PCIe裝置主要分為兩種類型:System(或Root Complex),如作為主設備的CPU和主機板;以及作為連接到主設備的附加裝置AIC(Add-in...
0

資料中心傳輸需求大增 高速光收發器模組需求起飛

近幾年,由於線上遊戲、隨選視訊、社群網路、雲端計算等需要大頻寬需求的應用不斷的推陳出新,讓全球網路的流量呈現爆炸性的成長。另外,為了支援雲端服務、高速運算等高網路流量的應用,資料中心(Data Center)建置的數量與規模也有非常明顯的成長。 根據Cisco的報告指出,在2015年資料中心的傳輸總流量約為4.7 Zetabytes,並預估到2020年將達到15.3 Zetabytes,將有超過三倍的成長。資料中心的訊息傳輸約有70%流量是發生在資料中心內部的傳輸,約有15%的流量是發生在資料中心之間的傳輸。由此可知大部分的傳輸流量是出現在資料中心內部,所以資料中心內部需要提高資料傳輸速率,同時還需要能夠具備低成本與低功率消耗的特性,而光訊號傳輸是目前唯一可以滿足這些需求的技術。因此,未來在資料中心內部的高速光收發器模組,也將持續有大量的需求;而且光收發器模組的技術發展,也將持續提高傳輸速率。 400G光收發器將成主流 為了實現高速光訊號傳輸,高速小型光收發器模組的開發是其中的關鍵技術,目前資料中心以40Gbps與100Gbps的光收發器模組為主要配備,而目前光收發器模組的生命週期約為三至四年,且有漸漸縮短的趨勢;所以市場預計200Gbps與400Gbps的光收發器模組將很快取代現有的傳輸模組。而隨著未來資料中心之間與內部互連越來越大的傳輸流量需求,估計在不久的將來800Gbps和1.6Tbps的傳輸系統也將會有所需求。 100Gbps光收發器模組的開發最早從2010年開始,當時IEEE 802.3標準提出SR10、LR4和ER4三種標準,分別應用在100m OM3多模光纖、10km單模光纖和40km單模光纖的傳輸;在2015年,提出SR4的標準,應用在100m OM4多模光纖的傳輸。SR10使用10個光發射器與光接收器,每個通道的傳輸速率是10Gbps;LR4、ER4和SR4則使用4個光發射器與光接收器,每個通道傳輸速率為25Gbps。多源協議(Multi-Source Agreement, MSA)也在2014年提出PSM4和CWDM4兩個標準,也是使用四個光發射器與光接收器,每個通道傳輸速率為25Gbps;PSM4應用在500m單模光纖的傳輸,而CWDM4則應用在2km單模光纖的傳輸。表1彙整了目前常用100Gbps光收發器模組的標準與相關特性。 100Gbps光收發器模組的封裝類型常見的有CFP、CFP2、CFP4和QSFP28。CFP-MSA定義熱插拔收發器應用在40Gbps與100Gbps網路傳輸的需求,可以支援在單模與多模光纖上傳輸多種速率,在電氣介面可以支援10×10Gbps高速資料訊號的發射與接收,具有較大的模組尺寸,以及較高的功率消耗約為24W,不適合需要高密度傳輸的資料中心之需求。CFP2光收發器模組的體積是CFP的一半,功率消耗低於9W。CFP4光收發器模組的體積又是CFP2的一半,功率消耗也大約下降一半。CFP、CFP2、CFP4是較早期的型式,而QSFP28延續QSFP的外觀結構,但每個通道傳輸速率達28Gbps,具有比CFP4更小的模組尺寸與更低的功率消耗,所以目前已經成為資料中心100Gbps光收發器模組封裝的主流型式。 在光收發器的訊號調變技術中,若採用四階脈波振幅調變(Four-level Pulse Amplitude Modulation, PAM4)的資料格式,每階振幅可以表示兩個位元的資料,相較於以往採用非歸零(Non-Return Zero, NRZ)的資料格式,每階振幅只能表示位元0或1的資料。因此,PAM4資料格式在相同的頻寬下大約可以提高一倍的資料傳輸速率。因此,在已發布400Gbps光收發器的標準中,PAM4資料格式已被採用,並成為資料傳輸的主要調變格式。從2014年開始,IEEE 802.3便開始研議400Gbps光收發器的標準,一直到2017年12月正式公布標準,提出SR16、DR4、FR8和LR8四種標準。SR16仍使用25Gbps NRZ的資料訊號,以32道並列(16道做為發射,16道做為接收)多模光纖進行傳輸,使用OM4多模光纖可傳輸100m。DR4、FR8和LR8都採用PAM4的資料調變格式,但DR4採用的是100Gbps(50Gbaud)PAM4,而FR8和LR8則採用50Gbps(25Gbaud)PAM4;DR4使用8道並列的500m單模光纖進行傳輸,而FR8和LR8則使用WDM技術分別在2km與10km的單模光纖中傳輸。100G Lambda MSA也在2018年1月提出400G-FR4的標準,採用100Gbps PAM4資料格式,並使用WDM技術在2km單模光纖中傳輸。考量目前技術成熟的光電元件與相關積體電路的操作頻寬,預計400Gbps光收發器模組以8×50Gbps的解決方案將比4×100Gbps更快可以被實現達成。表2彙整了目前400Gbps光收發器模組的標準與相關特性。 資料中心內的光收發器模組技術朝向400Gbps速率發展的方向已是主流趨勢,而對於400Gbps光收發器模組要採用何種封裝型式,成本的考量會是技術轉型的思考重點,需要考量向下的兼容性與向上的發展性。目前400Gbps光收發器模組的封裝類型主要發展有三種,CFP8、QSFP-DD、OSFP。CFP8規範的外觀尺寸比CFP4大,可以支援16×25Gbps NRZ或8×50Gbps PAM4的傳輸介面,最高功耗為24W;由於CFP8的尺寸較大且功率消耗較高,因此資料中心較不考慮採用此類型收發器模組。QSFP-DD模組結構在標準的QSFP四通道電氣介面,多增加一排四通道介面,成為具有八通道的光收發器;QSFP-DD模組可以支援QSFP+和QSFP28標準,所以使用QSFP-DD模組所設計的系統可以向下兼容;功率消耗規範為12W;目前受到Amazon、Facebook和系統設備廠商Cisco的支持。OSFP模組封裝是比較新的外型,尺寸比QSFP-DD略大一些,所以可支援較高的功率消耗達到16W,較容易達成長距離傳輸的設計,但缺少與QSFP28向下兼相性;目前受到Google與Arista Networks等公司支持。如圖1,為CFP8、QSFP-DD、OSFP三種400Gbps光收發器模組封裝型式。 圖1 400Gbps光收發器模組封裝類型 除了前述三種400Gbps光收發器模組封裝型式外,COBO(Consortium of...
0

5G帶動小型資料中心市場 40G/10G光纖需求不減

隨著資料中心應用對於高頻寬的需求逐漸上升,目前全球大型資料中心有線高速傳輸介面以100G Ethernet(100GbE)為主,並且正在朝向400GbE邁進。然而,10GbE與40GbE仍然將在中小型的資料中心應用之中占有一席之地,在未來,隨著5G通訊的發展逐漸蓬勃,更會帶動小型資料中心的需求上升;因此,10GbE與40GbE介面的重要性短期之內不會降低。 佑勝光電總經理張裕忠指出,許多研究單位皆提出數據指出,在超大規模資料中心應用之中,100G Ethernet是現今主流規格,然而這些數據往往沒有將中小型的資料中心歸納至其中。若是考慮進中小型資料中心的市場狀況,回顧2018年,10GbE的光收發器依然是最熱賣的產品。 在5G通訊發展的帶動之下,為因應未來的大量資料傳輸與儲存需求,未來基地台內也會需要搭載小型的資料中心。以目前大型資料中心介面主流為100GbE的情況下,中小型資料中心的需求只要40GbE即可滿足。 然而,張裕忠也提到,在未來,若是大型資料中心的傳輸介面升級至400GbE,中小型資料中心由於也必須與大型資料中心之間有所串接、配合,因此也勢必將朝向100GbE升級。然而,此刻光收發器中的雷射模組成本依然居高不下,將成為推動高速介面升級的首要挑戰。但是隨著技術與產能逐漸成熟,張裕忠預計,在兩年之內100GbE所需的光收發器中的雷射模組價格大約能與40GbE所需匹敵。  
0

首款AI加速平台出鞘 Xilinx全面擁抱人工智慧

人工智慧AI發展全面展開,可編程邏輯廠商美商賽靈思(Xilinx)認為,未來已經沒有一個架構可以滿足所有的應用需求,因此該公司正式踏上轉型之路,舉辦賽靈思開發者大會(XDF),並發表未來幾年的技術與產品重點,全面擁抱人工智慧的發展趨勢,以資料中心(Data Center)為發展策略的起點,目標為打造靈活應變、萬物智慧的世界。 一直以可編程技術為發展重點的Xilinx,2018年3月正式啟動策略轉型工作,宣示該公司從元件廠商轉型為平台廠商,提出自行調適運算加速平台(Adaptive Compute Acceleration Platform, ACAP)發展核心,旋即於10月推出第一款產品Versal。Xilinx總裁暨執行長Victor Peng表示,Versal字面上是由Variety與Universal組合而成,希望在技術與應用上可以兼顧多樣性與通用性。 在AI無所不在的時代,AI應用日新月異,晶片設計週期已經落後創新的速度,因此Peng認為,FPGA彈性的特點可以應用在AI的創新上,一般新晶片設計週期高達24個月,透過ACAP平台的協助,可將AI模型加以拆解,變成數個不同的發展(Develop)、優化(Optimize)、部署(Deploy)流程,該平台動態範圍廣泛彈性,可針對不同的應用調整需要的加速範圍。 Versal ACAP結合純量處理引擎(Scalar Processing Engine)、Arm Cortex-A72與Arm Cortex-R5,以及自行調適硬體引擎(Adaptable Hardware Engine),可動態重新配置,即時加速能力最高達八倍;DSP引擎可提供高準確性浮點運算與低延遲;AI引擎具有高傳輸率、低延遲與高效率,可協助AI推論與高階訊號處理,搭配先進記憶體和介面技術,可提供強大的異質加速能力。不管是軟體開發者、資料科學家或是硬體開發者,只須利用符合業界標準設計流程的工具、軟體、函式庫、IP、中介軟體以及框架,就能針對其硬體與軟體進行編程與最佳化。據了解,Versal採用台積電7奈米FinFET製程,正式量產時間為2019年第二季。 Xilinx也以現有UltraScale+ FPGA為基礎,發表Alveo U200與Alveo U250加速卡,就機器學習而言,Alveo U250的即時推論傳輸率比高階CPU高出20倍,甚至在低於2毫秒的低延遲應用方面,也比高階GPU這類固定功能加速器高出4倍。此外,Alveo加速器卡的延遲較GPU減少3倍,在資料庫搜尋等應用方面大幅加速、並提供較CPU高出90倍的效能。 Xilinx總裁暨執行長Victor Peng表示,FPGA靈活彈性將有助AI創新應用發展。  
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -