AI應用紛起　推論晶片炙手可熱

首頁 AI應用紛起　推論晶片炙手可熱

- Advertisement -

近年人工智慧(Artificial Intelligence, Al)熱潮帶來演算法、軟體、硬體等新發展，為了加速AI運算，半導體產業也積極開發對應的晶片，雖然早前於2005年業界即提倡過往只用於遊戲的繪圖處理器(Graphic Processing Unit, GPU)能有更多運用，如視訊剪輯(影片編碼轉檔)、高效能運算(High-Performance Computing, HPC)等，期望從遊戲娛樂專用轉向廣泛性運算，稱為GPGPU(General-Purpose GPU)，但直至近幾年方由NVIDIA的Tesla系列帶動AI加速晶片熱潮。

Tesla系列雖取得市場先機，但AI技術與市場逐漸演變出不同需求，一是依據布建位置的不同分成資料中心(Data Center, DC)、邊緣(Edge)兩類，前者位於集中且有密集設備的資訊機房內，後者則裝設在各種需求現場，例如視訊監控的攝影機、機箱閘道器及自駕車內等。

另一則是依據AI程式開發與運用兩階段區分，AI程式在開發過程中也稱為訓練學習(Training)階段，開發完成後用於辨識或預測則稱為推論(Inference，亦稱為推理、推算、推測)階段。

推論晶片成長潛力佳

因應上述需求，AI晶片也必須改變發展，由於資料中心有源源不絕的電力因而於AI晶片設計時以效能為優先，晶片與晶片加速卡可動輒數十、數百瓦功耗；邊緣則須在用電上有所節制，攝影機可能僅以網路線方式取得若干電力(Power over Ethernet, PoE)，因此晶片多必須低於10瓦，甚至僅1瓦、2瓦，閘道器亦僅比攝影機寬裕些；自駕車則因有汽車電瓶支撐且需對外界變化快速反應運算，因此為數十瓦、上百瓦電能。

除因應布建環境對功耗設計要求外，AI晶片因訓練、推論兩階段的不同也須改變，訓練階段由於AI的特徵、演算法、權重參數等均未定，需多方嘗試與調整，所以需要較高精度、較高位元數的運算，如32位元浮點數；訓練完成後則有機會簡化，調整成較低位元數，或將浮點數轉成整數，如16位元浮點數或8位元整數等。

事實上AI演算法仍持續精進，過去訓練以32位元浮點數為主，也開始出現16位元、8位元的浮點數訓練，如IBM於2018年的研究發表，推論可降至8位元整數，甚至出現4位元整數、2位元整數(圖1)。

雖然用於訓練的AI晶片也能用於AI推論，但以32位元浮點數為主的處理單元執行8位元整數，在電路面積與功耗等方面並不經濟，且多數認為未來AI推論的需求將遠大於AI訓練。一個AI應用程式在一年內僅會數次調整參數而重新訓練開發，但訓練完成後則是全年隨時在推論執行(如臉部辨識的門禁系統)，因此經濟節能的推論運算成為晶片商新焦點，甚至其市場會大於訓練用AI晶片市場。再將資料中心、邊緣、訓練、推論四者交叉權衡考量，由於訓練必須耗用大量且長時間運算，幾乎只會在資料中心內進行；即便不在資訊機房，亦僅在研究單位的桌上型電腦系統上進行，依然屬於偏重度用電的後端系統，短期內訓練不易在邊緣端進行，除非演算法、軟體面有重大突破，或僅為簡易少量訓練，邊緣大致上為推論晶片市場。

至於資料中心，原有高位元、高精度的AI晶片將持續用於訓練，但將逐漸導入推論專用晶片以便提升資料中心的經濟效益，除非在所有推論晶片均已投入運算仍無法滿足需求時，方才調用訓練用AI晶片轉而投入推論運算，屬應急性調度。

在分析前後端、訓練推論的四種情境後，2019年1月麥肯錫(McKinsey)發表的專文對四個市場進行預測，認為後端推論市場將有最大成長潛能(圖2)。

機房AI訓練/推論晶片各有方案

機房AI推論晶片有可能為最大潛力市場，然而機房訓練與機房推論的分際為何，一是晶片商發表晶片時即明確定義市場取向，如英特爾(Intel)Nervana的NNP-T/NNP-I晶片，前者為機房訓練晶片，後者為機房推論晶片；又如Intel近期購併的以色列Habana Labs，其機房訓練晶片為GAUDI方案，機房推論晶片為GOYA HL-1000晶片。

或者百度(Baidu)的818-300為訓練晶片，818-100則為推論晶片；NVIDIA亦採訓練、推論分別推展策略，其T4/Tesla T4即為推論專用晶片，有別於Tesla V100訓練晶片。

不過也有業者只專注於機房訓練或機房推論，例如谷歌(Google)的Cloud TPU並未有推論專用版，仍為訓練、推論合一，Google僅在邊緣推展推論專用晶片，即Edge TPU；亞馬遜AWS(Amazon Web Services)只自主發展用於推論的Inferentia晶片，訓練仍屬意使用NVIDIA Tesla；高通(Qualcomm)Cloud AI 100晶片亦以機房推論為主(圖3)，對岸的寒武紀(Cambricon)亦是如此。

另一方面則是採從寬認定，由於目前INT8(8位元整數)格式只用於推論，因此在硬體電路設計層面即支援INT8運算執行的晶片，可視為推論晶片(演算法若持續精進有可能改變此分界)，但此類晶片也可能具備支援FP16(16位元浮點數)、FP32等格式，可用於訓練，應視為訓練、推論合一取向。

原生支援INT8(也包含更低精度的INT4、INT2等)的AI晶片相較於更早期純然只支援FP16、FP32格式的AI晶片，已更具推論執行的經濟效益，故程度上也可視為推論晶片。

但估計未來的訓練晶片均會朝支援更多格式的方向發展，長期且嚴格認定仍屬於訓練取向晶片，或是未來訓練晶片均可能為訓練推論合一晶片，僅現階段仍能以推論晶片看待，例如華為(Huawei)昇騰(Ascend)910晶片。

此外，也有完全著墨於邊緣、前端推論領域的晶片商，如對岸的地平線(Horizon Robotics)、以色列Hailo Technologies、美國Syntiant、美國Mythic等；或在起步階段僅有機房訓練晶片，如近期與Microsoft締結合作的英國GraphCore等，由於本文以機房推論晶片為主，故在此略談。

值得注意的是，除NVIDIA Tesla是以GPU電路架構為主修改成AI晶片外，多數晶片商沒有原有電路架構的包袱，可純然以推論運算需求為出發設計晶片，但也有其他不同方向切入的晶片實現法。

其一是以FPGA晶片或FPGA電路為基礎衍生發展成的推論方案，如賽靈思(Xilinx)的Alveo系列、Versal AI Core系列；另一則是以邊緣推論晶片為主，但加大配置量的機房推論晶片方案，如美國GTI(Gyrfalcon Technology Inc.)的GAINBOARD 2801/2803在一張加速卡上配置16顆晶片，不同於多數機房推論晶片在單張卡上僅配置1、2顆晶片。

FPGA晶片以Intel Altera與Xilinx為主占，然而Intel在積極收購各家AI晶片新創業者的前提，估計會以收購產品為主。除兩大主占商外，萊迪思(Lattice)的AI方案以行動及家庭用為主，尚未有機房端方案，事實上需有高階FPGA技術方容易跨入機房端AI晶片領域，因此仍以Altera、Xilinx較具能耐。

晶片銷售方式百百種

上述雖以晶片商為主體進行探討，但實際提供給終端用戶的推論加速方案卻不一定以晶片方式提供，如寒武紀、GTI即在晶片銷售外也提供矽智財(IP)型式的授權。

或有晶片商也提供模組卡、加速卡等板卡型式的出貨，如Intel Habana Labs以GOYA HL-1000晶片為主推出GOYA HL-100/HL-102的加速卡，直接以PCI Express介面插入伺服器機內使用；Xilinx Alveo系列亦已是完整AI推論加速卡，其內為Xilinx FPGA晶片(圖4)。

以加速卡方式銷售的業者尚有華為以昇騰310、910晶片為主推出Atlas 300系列的加速卡、GTI以Lightspeeur 2801/2803晶片實現GAINBOARD 2801/2803加速卡，以及其他如寒武紀、NVIDIA亦均有加速卡。

此外另有提出夾層卡(Mezzanine)的作法，如臉書(Facebook)提出OAM(OCP Accelerator Module)新構型主張，而Habana Labs也以GAUDI HL-2000晶片推出HL-205的夾層卡以呼應OAM，GAUDI雖定位為訓練用但也原生支援INT8以下格式(圖5)。

圖5　Habana Labs提供以HL-205夾層卡方式出貨或HLS-1整機方式出貨。

進一步說明，也有業者直接提供平台參考設計，或直接以系統型態出貨，如NVIDIA已提出HPC運算與AI運算通用的HGX-1、HGX-2平台參考設計，未來也可能推展機房AI推論平台設計，該公司已出貨T4企業伺服器。

雖然晶片商提供多種銷售方案，試圖滿足終端用戶不同程度的需求，但自身亦有推展策略與趨向，多數以加速卡供貨的晶片商多不傾向單獨銷售晶片，原因在於晶片的單價低於加速卡，不利於營收與利潤，同時客戶購回晶片後會再行設計研發，過程中需要晶片原廠提供技術支援協助，必須投入更多心力及成本。因此晶片商會刻意讓晶片價格趨近於板卡價格，鼓勵用戶直接選擇板卡，但仍不會斷絕純晶片供貨，若有用戶大宗訂購晶片依然可配合出貨。

但對於整系統出貨而言，由於板卡仍是交付代理商、系統整合商負責裝配運用，整系統出貨幾乎直接面對終端用戶，需求細節可能繁雜，因此部分晶片商傾向拉高系統價格，只針對購買力強的少數終端用戶出貨。除了銷售外，也有機房推論晶片是不銷售的，而是以內部使用、租賃使用為主，例如AWS的Inferentia晶片即屬內用，或是EC2 Inf1的執行個體(Instance)供外部用戶租賃使用，2019年12月隨需運算的最低規格inf1.xlarge為每小時0.368美元，並只在美東、美西機房提供服務(圖6)；同樣地，Google Cloud TPU亦以內用為主，如用於Google相簿、街景服務的影像分類辨識上，但自用之餘也透過GCP(Google Cloud Platform)服務提供租賃使用。

第一代Cloud TPU完全內用，第二、三代提供租賃，第二代每小時4.5美元起跳，第三代8美元起跳，可用區域包含美國、歐洲、亞太，但以美國計價最低廉，歐洲次貴，亞太最貴，且亞太開通速度慢於歐美，目前僅可租用第二代，無法租用第三代。

以同樣是第二代租賃為例—美國4.5美元、歐洲4.95美元，亞太則為5.22美元。Cloud TPU為訓練、推論合一，Google方面以整顆晶片提供租賃，似尚未能虛擬化切割租賃，然而AWS EC2 Inf1已能以虛擬化方式切割租賃，因而計價偏高且價格刻度不細膩，顯見AWS較傾向提供外用，Google則傾向優先自家使用(圖7)。

推論晶片效能為發展重點

在眾業者紛紛加入機房推論晶片市場的戰局後，除了廣泛人工智慧框架支援性、軟體支援性外，推論效能為必然重點，目前多數業者每秒能完成多少次INT8格式運算為主重點，如Xilinx Alveo U250可達33.3TOPS，或華為昇騰910可達512TOPS等。

強調低延遲運算者如Habana Labs強調相同運算下GOYA方案僅9.4mS(毫秒)，而NVIDIA T4則為16.3mS，抑或強調相同演算法下可處理的照片張數等(圖8)。

圖8　Habana Labs強調其GOYA方案推論延遲速度低於NVIDIA T4。

不過晶片可透過投入更大功耗換取再提升的效能，但每瓦效能比率上卻逐漸不合算。

然而推論晶片價值即在於經濟性，因此即便在電力源源不絕的機房，依然需要強調每瓦效能，即TOPS/Watt、Per Watt TOPS。事實上邊緣推論晶片更重視每瓦效能，其次才是尖峰效能。

機房推論則以尖峰效能為先，其次為每瓦效能。此外，AI晶片正熱門，過去Intel以CPU、NVIDIA以GPU大幅開拓市場，因此許多AI晶片也愛以PU為名變化。

像是阿里巴巴(Alibaba)自研的機房推論晶片NPU-100(據稱技術源於寒武紀MLU100)其NPU即指Neural Processing Unit，GraphCore則稱其晶片為IPU(Intelligence Processing Unit)。

晶片商龍爭虎鬥搶攻推論市場

最後回歸晶片商本身討論，由於機房推論晶片市場前景看好，因此傳統晶片大廠及新創業者皆投入，傳統大廠如Intel、Qualcomm、Xilinx，新創如Habana Labs(已屬Intel)、GTI、寒武紀等。

但無論訓練或推論，主要終端用戶買家均會是超規模資料中心(Hyperscale Data Center)業者，理由是一年僅會有幾次訓練，自建機房並不合算，未來傾向租用進行訓練，所以訓練晶片主要買家會是資料中心，而其營運規模龐大，需苛求每一分運算的經濟性，因此亦需要推論晶片。因此Google、AWS、阿里巴巴傾向自研發晶片，大廠或新創也積極擁抱大規模機房業者，像是Intel與Facebook合作、GraphCore與Microsoft合作等。由於投入者眾，加上AI演算法、軟體、應用等均持續發展演進，估計短時間內各類型機房推論晶片仍有一番搏殺，最終主流主占才得以浮現。

前一篇終端裝置AI推論需求可期　Arm再推兩款IP方案

下一篇意法攜手Fieldscale優化STM32智慧裝置觸控體驗

推論晶片成長潛力佳

機房AI訓練/推論晶片各有方案

晶片銷售方式百百種

推論晶片效能為發展重點

晶片商龍爭虎鬥搶攻推論市場

Related posts:

相關文章

最新文章

熱門文章

編輯推薦