- Advertisement -
首頁 AI應用紛起 推論晶片炙手可熱

AI應用紛起 推論晶片炙手可熱

- Advertisement -

近年人工智慧(Artificial Intelligence, Al)熱潮帶來演算法、軟體、硬體等新發展,為了加速AI運算,半導體產業也積極開發對應的晶片,雖然早前於2005年業界即提倡過往只用於遊戲的繪圖處理器(Graphic Processing Unit, GPU)能有更多運用,如視訊剪輯(影片編碼轉檔)、高效能運算(High-Performance Computing, HPC)等,期望從遊戲娛樂專用轉向廣泛性運算,稱為GPGPU(General-Purpose GPU),但直至近幾年方由NVIDIA的Tesla系列帶動AI加速晶片熱潮。

Tesla系列雖取得市場先機,但AI技術與市場逐漸演變出不同需求,一是依據布建位置的不同分成資料中心(Data Center, DC)、邊緣(Edge)兩類,前者位於集中且有密集設備的資訊機房內,後者則裝設在各種需求現場,例如視訊監控的攝影機、機箱閘道器及自駕車內等。

另一則是依據AI程式開發與運用兩階段區分,AI程式在開發過程中也稱為訓練學習(Training)階段,開發完成後用於辨識或預測則稱為推論(Inference,亦稱為推理、推算、推測)階段。

推論晶片成長潛力佳

因應上述需求,AI晶片也必須改變發展,由於資料中心有源源不絕的電力因而於AI晶片設計時以效能為優先,晶片與晶片加速卡可動輒數十、數百瓦功耗;邊緣則須在用電上有所節制,攝影機可能僅以網路線方式取得若干電力(Power over Ethernet, PoE),因此晶片多必須低於10瓦,甚至僅1瓦、2瓦,閘道器亦僅比攝影機寬裕些;自駕車則因有汽車電瓶支撐且需對外界變化快速反應運算,因此為數十瓦、上百瓦電能。

除因應布建環境對功耗設計要求外,AI晶片因訓練、推論兩階段的不同也須改變,訓練階段由於AI的特徵、演算法、權重參數等均未定,需多方嘗試與調整,所以需要較高精度、較高位元數的運算,如32位元浮點數;訓練完成後則有機會簡化,調整成較低位元數,或將浮點數轉成整數,如16位元浮點數或8位元整數等。

事實上AI演算法仍持續精進,過去訓練以32位元浮點數為主,也開始出現16位元、8位元的浮點數訓練,如IBM於2018年的研究發表,推論可降至8位元整數,甚至出現4位元整數、2位元整數(圖1)。

圖1 IBM研究顯示AI訓練、推論的精度需求均持續降低中。

雖然用於訓練的AI晶片也能用於AI推論,但以32位元浮點數為主的處理單元執行8位元整數,在電路面積與功耗等方面並不經濟,且多數認為未來AI推論的需求將遠大於AI訓練。一個AI應用程式在一年內僅會數次調整參數而重新訓練開發,但訓練完成後則是全年隨時在推論執行(如臉部辨識的門禁系統),因此經濟節能的推論運算成為晶片商新焦點,甚至其市場會大於訓練用AI晶片市場。再將資料中心、邊緣、訓練、推論四者交叉權衡考量,由於訓練必須耗用大量且長時間運算,幾乎只會在資料中心內進行;即便不在資訊機房,亦僅在研究單位的桌上型電腦系統上進行,依然屬於偏重度用電的後端系統,短期內訓練不易在邊緣端進行,除非演算法、軟體面有重大突破,或僅為簡易少量訓練,邊緣大致上為推論晶片市場。

至於資料中心,原有高位元、高精度的AI晶片將持續用於訓練,但將逐漸導入推論專用晶片以便提升資料中心的經濟效益,除非在所有推論晶片均已投入運算仍無法滿足需求時,方才調用訓練用AI晶片轉而投入推論運算,屬應急性調度。

在分析前後端、訓練推論的四種情境後,2019年1月麥肯錫(McKinsey)發表的專文對四個市場進行預測,認為後端推論市場將有最大成長潛能(圖2)。

圖2 McKinsey&Company對四類型AI硬體市場的預估。

機房AI訓練/推論晶片各有方案

機房AI推論晶片有可能為最大潛力市場,然而機房訓練與機房推論的分際為何,一是晶片商發表晶片時即明確定義市場取向,如英特爾(Intel)Nervana的NNP-T/NNP-I晶片,前者為機房訓練晶片,後者為機房推論晶片;又如Intel近期購併的以色列Habana Labs,其機房訓練晶片為GAUDI方案,機房推論晶片為GOYA HL-1000晶片。

或者百度(Baidu)的818-300為訓練晶片,818-100則為推論晶片;NVIDIA亦採訓練、推論分別推展策略,其T4/Tesla T4即為推論專用晶片,有別於Tesla V100訓練晶片。

不過也有業者只專注於機房訓練或機房推論,例如谷歌(Google)的Cloud TPU並未有推論專用版,仍為訓練、推論合一,Google僅在邊緣推展推論專用晶片,即Edge TPU;亞馬遜AWS(Amazon Web Services)只自主發展用於推論的Inferentia晶片,訓練仍屬意使用NVIDIA Tesla;高通(Qualcomm)Cloud AI 100晶片亦以機房推論為主(圖3),對岸的寒武紀(Cambricon)亦是如此。

圖3 Qualcomm Cloud AI 100示意圖。

另一方面則是採從寬認定,由於目前INT8(8位元整數)格式只用於推論,因此在硬體電路設計層面即支援INT8運算執行的晶片,可視為推論晶片(演算法若持續精進有可能改變此分界),但此類晶片也可能具備支援FP16(16位元浮點數)、FP32等格式,可用於訓練,應視為訓練、推論合一取向。

原生支援INT8(也包含更低精度的INT4、INT2等)的AI晶片相較於更早期純然只支援FP16、FP32格式的AI晶片,已更具推論執行的經濟效益,故程度上也可視為推論晶片。

但估計未來的訓練晶片均會朝支援更多格式的方向發展,長期且嚴格認定仍屬於訓練取向晶片,或是未來訓練晶片均可能為訓練推論合一晶片,僅現階段仍能以推論晶片看待,例如華為(Huawei)昇騰(Ascend)910晶片。

此外,也有完全著墨於邊緣、前端推論領域的晶片商,如對岸的地平線(Horizon Robotics)、以色列Hailo Technologies、美國Syntiant、美國Mythic等;或在起步階段僅有機房訓練晶片,如近期與Microsoft締結合作的英國GraphCore等,由於本文以機房推論晶片為主,故在此略談。

值得注意的是,除NVIDIA Tesla是以GPU電路架構為主修改成AI晶片外,多數晶片商沒有原有電路架構的包袱,可純然以推論運算需求為出發設計晶片,但也有其他不同方向切入的晶片實現法。

其一是以FPGA晶片或FPGA電路為基礎衍生發展成的推論方案,如賽靈思(Xilinx)的Alveo系列、Versal AI Core系列;另一則是以邊緣推論晶片為主,但加大配置量的機房推論晶片方案,如美國GTI(Gyrfalcon Technology Inc.)的GAINBOARD 2801/2803在一張加速卡上配置16顆晶片,不同於多數機房推論晶片在單張卡上僅配置1、2顆晶片。

FPGA晶片以Intel Altera與Xilinx為主占,然而Intel在積極收購各家AI晶片新創業者的前提,估計會以收購產品為主。除兩大主占商外,萊迪思(Lattice)的AI方案以行動及家庭用為主,尚未有機房端方案,事實上需有高階FPGA技術方容易跨入機房端AI晶片領域,因此仍以Altera、Xilinx較具能耐。

晶片銷售方式百百種

上述雖以晶片商為主體進行探討,但實際提供給終端用戶的推論加速方案卻不一定以晶片方式提供,如寒武紀、GTI即在晶片銷售外也提供矽智財(IP)型式的授權。

或有晶片商也提供模組卡、加速卡等板卡型式的出貨,如Intel Habana Labs以GOYA HL-1000晶片為主推出GOYA HL-100/HL-102的加速卡,直接以PCI Express介面插入伺服器機內使用;Xilinx Alveo系列亦已是完整AI推論加速卡,其內為Xilinx FPGA晶片(圖4)。

圖4 Xilinx Alveo U系列機房推論加速卡。

以加速卡方式銷售的業者尚有華為以昇騰310、910晶片為主推出Atlas 300系列的加速卡、GTI以Lightspeeur 2801/2803晶片實現GAINBOARD 2801/2803加速卡,以及其他如寒武紀、NVIDIA亦均有加速卡。

此外另有提出夾層卡(Mezzanine)的作法,如臉書(Facebook)提出OAM(OCP Accelerator Module)新構型主張,而Habana Labs也以GAUDI HL-2000晶片推出HL-205的夾層卡以呼應OAM,GAUDI雖定位為訓練用但也原生支援INT8以下格式(圖5)。

圖5 Habana Labs提供以HL-205夾層卡方式出貨或HLS-1整機方式出貨。

進一步說明,也有業者直接提供平台參考設計,或直接以系統型態出貨,如NVIDIA已提出HPC運算與AI運算通用的HGX-1、HGX-2平台參考設計,未來也可能推展機房AI推論平台設計,該公司已出貨T4企業伺服器。

雖然晶片商提供多種銷售方案,試圖滿足終端用戶不同程度的需求,但自身亦有推展策略與趨向,多數以加速卡供貨的晶片商多不傾向單獨銷售晶片,原因在於晶片的單價低於加速卡,不利於營收與利潤,同時客戶購回晶片後會再行設計研發,過程中需要晶片原廠提供技術支援協助,必須投入更多心力及成本。因此晶片商會刻意讓晶片價格趨近於板卡價格,鼓勵用戶直接選擇板卡,但仍不會斷絕純晶片供貨,若有用戶大宗訂購晶片依然可配合出貨。

但對於整系統出貨而言,由於板卡仍是交付代理商、系統整合商負責裝配運用,整系統出貨幾乎直接面對終端用戶,需求細節可能繁雜,因此部分晶片商傾向拉高系統價格,只針對購買力強的少數終端用戶出貨。除了銷售外,也有機房推論晶片是不銷售的,而是以內部使用、租賃使用為主,例如AWS的Inferentia晶片即屬內用,或是EC2 Inf1的執行個體(Instance)供外部用戶租賃使用,2019年12月隨需運算的最低規格inf1.xlarge為每小時0.368美元,並只在美東、美西機房提供服務(圖6);同樣地,Google Cloud TPU亦以內用為主,如用於Google相簿、街景服務的影像分類辨識上,但自用之餘也透過GCP(Google Cloud Platform)服務提供租賃使用。

圖6 2019年12月AWS EC2 Inf1隨需租用價格。

第一代Cloud TPU完全內用,第二、三代提供租賃,第二代每小時4.5美元起跳,第三代8美元起跳,可用區域包含美國、歐洲、亞太,但以美國計價最低廉,歐洲次貴,亞太最貴,且亞太開通速度慢於歐美,目前僅可租用第二代,無法租用第三代。

以同樣是第二代租賃為例—美國4.5美元、歐洲4.95美元,亞太則為5.22美元。Cloud TPU為訓練、推論合一,Google方面以整顆晶片提供租賃,似尚未能虛擬化切割租賃,然而AWS EC2 Inf1已能以虛擬化方式切割租賃,因而計價偏高且價格刻度不細膩,顯見AWS較傾向提供外用,Google則傾向優先自家使用(圖7)。

圖7 GCP於美國地區提供Cloud TPU租賃的價格。

推論晶片效能為發展重點

在眾業者紛紛加入機房推論晶片市場的戰局後,除了廣泛人工智慧框架支援性、軟體支援性外,推論效能為必然重點,目前多數業者每秒能完成多少次INT8格式運算為主重點,如Xilinx Alveo U250可達33.3TOPS,或華為昇騰910可達512TOPS等。

強調低延遲運算者如Habana Labs強調相同運算下GOYA方案僅9.4mS(毫秒),而NVIDIA T4則為16.3mS,抑或強調相同演算法下可處理的照片張數等(圖8)。

圖8 Habana Labs強調其GOYA方案推論延遲速度低於NVIDIA T4。

不過晶片可透過投入更大功耗換取再提升的效能,但每瓦效能比率上卻逐漸不合算。

然而推論晶片價值即在於經濟性,因此即便在電力源源不絕的機房,依然需要強調每瓦效能,即TOPS/Watt、Per Watt TOPS。事實上邊緣推論晶片更重視每瓦效能,其次才是尖峰效能。

機房推論則以尖峰效能為先,其次為每瓦效能。此外,AI晶片正熱門,過去Intel以CPU、NVIDIA以GPU大幅開拓市場,因此許多AI晶片也愛以PU為名變化。

像是阿里巴巴(Alibaba)自研的機房推論晶片NPU-100(據稱技術源於寒武紀MLU100)其NPU即指Neural Processing Unit,GraphCore則稱其晶片為IPU(Intelligence Processing Unit)。

晶片商龍爭虎鬥搶攻推論市場

最後回歸晶片商本身討論,由於機房推論晶片市場前景看好,因此傳統晶片大廠及新創業者皆投入,傳統大廠如Intel、Qualcomm、Xilinx,新創如Habana Labs(已屬Intel)、GTI、寒武紀等。

但無論訓練或推論,主要終端用戶買家均會是超規模資料中心(Hyperscale Data Center)業者,理由是一年僅會有幾次訓練,自建機房並不合算,未來傾向租用進行訓練,所以訓練晶片主要買家會是資料中心,而其營運規模龐大,需苛求每一分運算的經濟性,因此亦需要推論晶片。因此Google、AWS、阿里巴巴傾向自研發晶片,大廠或新創也積極擁抱大規模機房業者,像是Intel與Facebook合作、GraphCore與Microsoft合作等。由於投入者眾,加上AI演算法、軟體、應用等均持續發展演進,估計短時間內各類型機房推論晶片仍有一番搏殺,最終主流主占才得以浮現。

相關文章

- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -