推論運算
AI應用紛起 推論晶片炙手可熱
近年人工智慧(Artificial Intelligence, Al)熱潮帶來演算法、軟體、硬體等新發展,為了加速AI運算,半導體產業也積極開發對應的晶片,雖然早前於2005年業界即提倡過往只用於遊戲的繪圖處理器(Graphic Processing Unit, GPU)能有更多運用,如視訊剪輯(影片編碼轉檔)、高效能運算(High-Performance Computing, HPC)等,期望從遊戲娛樂專用轉向廣泛性運算,稱為GPGPU(General-Purpose GPU),但直至近幾年方由NVIDIA的Tesla系列帶動AI加速晶片熱潮。
Tesla系列雖取得市場先機,但AI技術與市場逐漸演變出不同需求,一是依據布建位置的不同分成資料中心(Data Center, DC)、邊緣(Edge)兩類,前者位於集中且有密集設備的資訊機房內,後者則裝設在各種需求現場,例如視訊監控的攝影機、機箱閘道器及自駕車內等。
另一則是依據AI程式開發與運用兩階段區分,AI程式在開發過程中也稱為訓練學習(Training)階段,開發完成後用於辨識或預測則稱為推論(Inference,亦稱為推理、推算、推測)階段。
推論晶片成長潛力佳
因應上述需求,AI晶片也必須改變發展,由於資料中心有源源不絕的電力因而於AI晶片設計時以效能為優先,晶片與晶片加速卡可動輒數十、數百瓦功耗;邊緣則須在用電上有所節制,攝影機可能僅以網路線方式取得若干電力(Power over Ethernet, PoE),因此晶片多必須低於10瓦,甚至僅1瓦、2瓦,閘道器亦僅比攝影機寬裕些;自駕車則因有汽車電瓶支撐且需對外界變化快速反應運算,因此為數十瓦、上百瓦電能。
除因應布建環境對功耗設計要求外,AI晶片因訓練、推論兩階段的不同也須改變,訓練階段由於AI的特徵、演算法、權重參數等均未定,需多方嘗試與調整,所以需要較高精度、較高位元數的運算,如32位元浮點數;訓練完成後則有機會簡化,調整成較低位元數,或將浮點數轉成整數,如16位元浮點數或8位元整數等。
事實上AI演算法仍持續精進,過去訓練以32位元浮點數為主,也開始出現16位元、8位元的浮點數訓練,如IBM於2018年的研究發表,推論可降至8位元整數,甚至出現4位元整數、2位元整數(圖1)。
圖1 IBM研究顯示AI訓練、推論的精度需求均持續降低中。
雖然用於訓練的AI晶片也能用於AI推論,但以32位元浮點數為主的處理單元執行8位元整數,在電路面積與功耗等方面並不經濟,且多數認為未來AI推論的需求將遠大於AI訓練。一個AI應用程式在一年內僅會數次調整參數而重新訓練開發,但訓練完成後則是全年隨時在推論執行(如臉部辨識的門禁系統),因此經濟節能的推論運算成為晶片商新焦點,甚至其市場會大於訓練用AI晶片市場。再將資料中心、邊緣、訓練、推論四者交叉權衡考量,由於訓練必須耗用大量且長時間運算,幾乎只會在資料中心內進行;即便不在資訊機房,亦僅在研究單位的桌上型電腦系統上進行,依然屬於偏重度用電的後端系統,短期內訓練不易在邊緣端進行,除非演算法、軟體面有重大突破,或僅為簡易少量訓練,邊緣大致上為推論晶片市場。
至於資料中心,原有高位元、高精度的AI晶片將持續用於訓練,但將逐漸導入推論專用晶片以便提升資料中心的經濟效益,除非在所有推論晶片均已投入運算仍無法滿足需求時,方才調用訓練用AI晶片轉而投入推論運算,屬應急性調度。
在分析前後端、訓練推論的四種情境後,2019年1月麥肯錫(McKinsey)發表的專文對四個市場進行預測,認為後端推論市場將有最大成長潛能(圖2)。
圖2 McKinsey&Company對四類型AI硬體市場的預估。
機房AI訓練/推論晶片各有方案
機房AI推論晶片有可能為最大潛力市場,然而機房訓練與機房推論的分際為何,一是晶片商發表晶片時即明確定義市場取向,如英特爾(Intel)Nervana的NNP-T/NNP-I晶片,前者為機房訓練晶片,後者為機房推論晶片;又如Intel近期購併的以色列Habana Labs,其機房訓練晶片為GAUDI方案,機房推論晶片為GOYA HL-1000晶片。
或者百度(Baidu)的818-300為訓練晶片,818-100則為推論晶片;NVIDIA亦採訓練、推論分別推展策略,其T4/Tesla T4即為推論專用晶片,有別於Tesla V100訓練晶片。
不過也有業者只專注於機房訓練或機房推論,例如谷歌(Google)的Cloud TPU並未有推論專用版,仍為訓練、推論合一,Google僅在邊緣推展推論專用晶片,即Edge TPU;亞馬遜AWS(Amazon Web Services)只自主發展用於推論的Inferentia晶片,訓練仍屬意使用NVIDIA Tesla;高通(Qualcomm)Cloud AI...