邊緣推論
AIoT應用含苞待放 邊緣推論晶片迎來戰國時代
相較於AI雲端訓練領域的蓬勃發展,邊緣推論則像是一片含苞待放的花園,各式各樣爭奇鬥艷的花朵準備盛開,智慧物聯網AIoT應用破碎化,很少有一個應用可以像過去主流應用一樣每年創造數億或10幾億出貨量的產業規模,每個應用的需求又各自不同;不過,業界估算整體AIoT產業的規模至少數十億甚至上百億,邊緣推論晶片未來幾年產業發展潛力十足。
目前人們生活中的絕大部分應用都需要機器學習(Machine Learning, ML)及邊緣運算解決方案,如語音辨識、人臉識別、符號偵測與定位、車牌辨識等。大多數應用場景需要即時的用戶互動與反應,強調能在地處理解決問題,而毋需將數據傳遞到雲端並進行運算,透過邊緣運算可以降低雲端運算的負擔,也可以解決延遲性、安全性和可靠性的問題。
AI聲音/影像應用推陳出新
由於AI演算法與處理器能力持續提升,超高影像解析度(Super Resolution)、準確的物件偵測(Object Detection)、影像分類功能(Images Classification)、快速的語音翻譯功能(Speech Translation)在過去一年獲得大幅進展。Arm首席應用工程師沈綸銘(圖1)提到,AI為使用者帶來更好的使用體驗。例如超高影像解析度能讓使用者掌握影像細節,大幅提升觀賞影片的體驗;Avatars效果能讓使用者在自拍時使用有趣的即時動畫效果;相機的智慧夜拍模式,則讓光源控制更輕鬆,在低光源下拍攝也能媲美日拍一般清晰;此外運用生物辨識技術的臉部辨識與解鎖功能,能讓消費者使用手機付款時更安全更便利。
圖1 Arm首席應用工程師沈綸銘
沈綸銘進一步提到,除了超高影像畫質能提升觀影體驗,AI也能強化整體的聲光環境,例如偵測影視內容所需,調整或放大聲量,或者對應室內光線環境,調校顏色對比與鮮明度;還能為家中有小朋友的家長把關,當偵測到電視前方有小朋友,電視會自動停止播放不適合的影視內容,以上這些功能或多或少都有AI的協助。
觀察AI專用晶片進程,沈綸銘認為,未來產品將朝向分眾市場發展,根據各式需求,像是算力、功耗、軟體大小、軟體開發框架等而有不同的發展趨勢。以嵌入式系統為例,市場上需要在少量功耗增加下提供有效率的運算處理。相對的,以自駕車系統為例,市場上則需要可延展的AI運算加速器,以及通用性的軟體開發。
邊緣推論講算力拼省電
卷積神經網路(Convolutional Neural Network, CNN)是這波人工智慧技術發展的起點之一,也是目前發展成熟度最高的技術,其對影像辨識效果最佳,應用也非常廣泛;過去幾年在指紋辨識領域取得領先地位的神盾(Egis Technology),也將原先的核心技術與AI結合,神盾新技術研發處副總經理林郁軒(圖2)表示,以智慧型手機指紋辨識功能為例,透過邊緣AI的協助,在辨識時毋須喚醒應用處理器也無須聯網,對整個系統的耗電與反應速度大有幫助。
圖2 神盾新技術研發處副總經理林郁軒
神盾從指紋辨識起家,為了優化指紋辨識的效能而導入AI,再從指紋的影像辨識往人臉、行為、動作等各式影像辨識技術發展,林郁軒解釋,邊緣運算尤其是行動終端或AIoT類的產品,除了算力還會比較每瓦的TOPS,導入AI也不能犧牲電源效率,這應該也是未來邊緣推論晶片競爭的重點。以神盾現在的解決方案來看,每瓦約可提供1~2TOPS算力,預計年底將提升到3TOPS,2021年則將推出20TOPS的解決方案。
未來幾年,對於ASIC廠商而言,與客戶深入溝通,將需求明確定義,是非常重要的關鍵,林郁軒認為,這樣才可以透過專用演算法與電路的設計,提高晶片的每瓦TOPS。而在推論的精度上,一般而言精度越低效率越好,所以也有滿多設計會導入可調式精度架構,讓精度與效率可以依應用調整。
AI系統效能為更可靠指標
針對AI算力已經成為效能指標的代名詞,在台灣可以被稱得上是人工智慧「獨角獸」的耐能智慧(Kneron),該公司董事長劉峻誠(圖3)指出,算力就跟CPU的處理速度一樣,只是AI晶片的運算能力,並不能代表整個系統效能,一味追求TOPS或是每瓦TOPS的數字表現,容易陷入迷思。耐能於2019年推出KL520晶片,具備「可重組式人工智慧神經網路技術」,會根據不同任務進行重組,減少運算複雜度,保證在不同的卷積神經網路模型上的使用,無論是模型內核(Kernel)大小的變化、模型規模的變化,還是影像輸入大小的變化,都能保持高效率使用運算(MAC)單元。
圖3 耐能智慧董事長劉峻誠
劉峻誠並提出「Edge AI Net」的概念,透過AI晶片,能夠將生命賦予終端設備,實現去中心化、離線本地處理、主動智慧等目標。一般而言,目前的AI網路如CNN、遞歸神經網路(Recurrent Neural Network, RNN)或長短期記憶(Long Short-term Memory, LSTM)網路,都是由卷積、剪枝(Pruning)與矩陣乘法器組成,耐能的晶片可以因應不同應用需求進行網路重組,所以一款晶片可支援多個不同網路架構,並組成Edge AI Net,讓算力共享,而能達成1TOPS算力,創造3TOPS效率的效果。
2020年下半年耐能計畫推出新款的AI晶片KL720,具備可堆疊式設計,可因應網路效能需求大幅提高算力,也不放棄個別晶片的每瓦TOPS,同時進一步將Edge AI Net概念具體實現,以「Kneo」的名稱推廣其智慧物聯網AIoT概念。從2019年發表KL520開始,已經有數百萬顆晶片的出貨量,未來這些產品都將是一個網路節點,有機會成為AI時代最具影響力的架構。
邊緣推論晶片大發生
在PC與行動通訊時代,最後都只剩少數晶片大廠主導市場,如英特爾(Intel)、AMD與高通(Qualcomm)、聯發科(MTK)。AI目前是百花齊放的時期,會不會延續之前的發展模式還很難研判,但競爭的激烈程度可以想見;恩智浦(NXP)AI晶片專注於邊緣運算晶片和終端產品晶片。恩智浦半導體大中華區業務行銷資深經理黃健洲表示,於邊緣運算和閘道,提供如i.MX處理器和Layerscape處理器並加強NN/ML加速器運作為目標,提供更快的反應時間,而毋需連接到網際網路執行機器學習推論並提高隱私和安全。
除了開發人工智慧晶片外,恩智浦還打算為使用者提供完整的生態系統,建立開發環境,推出邊緣智慧(eIQ)SDK工具,用於收集資料庫和開發工具,建構MCU/MPU的機器學習應用程式,如i.MXRT10xx與i.MX8M Plus應用處理器。
而在行動通訊時代取得重大成功的Arm,同樣積極發展AI解決方案,沈綸銘說,Arm...
製程升級/專用化/改架構 AI訓練/推論晶片算力攀升
人工智慧(AI)在經過幾年熱潮後逐步落地,過去強調AI準確性的做法,轉變為追求效率,而「算力」似乎成為AI晶片效能最容易理解的指標,TOPS(Tera Operations Per Second)或TOPS/w慢慢成為產業共識,儘管構成算力的條件很多,AI執行效能也非僅從算力就能完全判定。進入所謂AI 3.0的時代,資料運算複雜性持續提升,但希望在有限的資源下達成最佳化管理的目標,算力就是系統效能最初步/簡易的判別指標。
另外,AI針對不同場景與任務,可以分為雲端(Cloud)與邊緣(Edge)、訓練(Training)與推論(Inference),為了提升效能表現,這四類工作走向專用與分流,處理雲端訓練的晶片依然強調運算能力,希望能以資料處理量為重點,然而在另一端的邊緣推論則可犧牲部分精度,以求在最低的功耗下獲得可接受的結果,在強調運算與講求耗電的兩種需求就像是光譜的兩端,加上雲端推論與邊緣訓練,為AI晶片畫出四個明確的專用分流路線。
AI晶片分流專用成趨勢
1TOPS代表處理器每秒鐘可進行一萬億次(1012)運算。每秒浮點運算次數(Floating-point Operations Per Second, FLOPS)是每秒所執行的浮點運算次數,代表AI網路資料處理能力。整數運算則是使用在推論上,8位元整數(INT8)逐漸成為邊緣推論的主流,工研院產科國際所產業分析師范哲豪(圖1)認為,準確度更高的INT16與INT32,只出現在某些特殊應用,部分單純的應用更僅要求四位元或二位元精度。
圖1 工研院產科國際所產業分析師范哲豪
根據2018年中國清華大學的「2018人工智慧晶片技術白皮書」,將AI晶片分為三類,第一類是經過軟硬體優化可高效支援AI應用的通用晶片,如GPU、FPGA;第二類是專門為特定的AI產品或應用而設計的ASIC晶片,主要側重加速機器學習,尤其是神經網路、深度學習,目前智慧物聯網AIoT的終端應用出現越來越多這類晶片;第三類受生物腦啟發設計的神經形態運算晶片,這類晶片不採用經典的馮紐曼架構(Von Neumann Architecture),模擬人類神經元的運算模式,可以大幅提升算力。
大致說來,第一類通用型AI晶片是以雲端訓練為主,代表性廠商就是NVIDIA、Intel、Xilinx、Qualcomm這類大廠。第二類專用型的晶片以邊緣推論為主,廠商則是百花齊放,老將與新星並陳,許多原來發展ASIC的廠商與乘著AI浪潮興起的「獨角獸」都發展這類晶片。范哲豪提到,第三類神經網路晶片則是未來趨勢,像IBM或美國國防高等研究計畫署(DARPA),還有一些學校、知名技術實驗室已積極研發相關技術。
科技產業投入AI晶片前仆後繼
AI晶片是2019年半導體的投資熱點,工研院資通所嵌入式系統與晶片技術組長盧俊銘(圖2)指出,雲端以訓練為主,邊緣推理應用廣泛,因此出現雲端有訓練,邊緣有推理的說法,許多新創業者嶄露頭角;而處理器龍頭Intel繼2016年4.08億美元併購Nervana之後,2019年底再度以20億美元併購以色列AI晶片廠商Habana,同時擁有CPU、GPU、FPGA、AI專用推論與訓練晶片,具備最完整的AI產品線,展現進軍此領域強大的決心。
圖2 工研院資通所嵌入式系統與晶片技術組長盧俊銘
范哲豪強調,AI演算法、運算力、資料是AI三大要素,所以Google、Amazon、Microsoft、Facebook、阿里巴巴、百度等網路服務大廠也積極投入開發資料中心伺服器專屬的AI晶片或邊緣處理器。另外,恩智浦半導體大中華區業務行銷資深經理黃健洲(圖3)說,AI雲端晶片特點在於運算和圖形處理能力,並提供安全的客戶解決方案、應用和設備管理環境;邊緣端的優點則是保障隱私、改善用戶體驗、高可靠性的應用需求。
圖3 恩智浦半導體大中華區業務行銷資深經理黃健洲
而訓練則是透過量化等為更精確的訓練模型生成提供動力,訓練模型經過非常縝密的計算而且時間密集。黃健洲認為,需要更多資料遷移和AI引擎被創造出來為RTOS或低功耗電池平台提供輕量與靈活的訓練模型,以導入邊緣運算。推論(如Arm推出的Arm NN、Arm CMSIS-NN、OpenCV等)的趨勢則以提高卷積、匯集、動作等功能。
AI新架構成長期發展重點
為了提高AI晶片效能,算力成為關鍵指標之一,范哲豪解釋,傳統的CPU採用序列式運算,AI處理器則著重平行式運算,AI的運算與資料關係密切,資料介面頻寬成為運算的瓶頸之一,於是近來有更多解決AI運算時資料存取瓶頸的技術被提出,包括升級記憶體頻寬、讓處理器與記憶體靠的更近的近記憶體運算(Near Memory Computing)、運算單元與記憶體整合的記憶體內運算(In Memory Computing)等。
多年來資訊運算與處理都是依循傳統的馮紐曼架構,運算與儲存單元分開,范哲豪進一步說明,無論是CPU、DSP或GPU都是單獨處理運算,需要資料再從記憶單元呼叫,而在AI發展的過程中,運算單元不斷提升處理能力,資料匯流排頻寬沒有隨之擴充或追不上運算提升的程度,AI運算需要在運算同時取用資料,為了使AI運算最佳化,重新發展晶片的架構或材料,讓運算與記憶體的取用更即時,成為技術研發的方向。
目前常見的作法是Near Memory Computing,像NVIDIA的NVLink高速GPU互連技術,可以提升GPU的互聯頻寬與記憶體的取用速度,提供50~200GB/s的頻寬。或者是減低記憶體與處理器連線距離的設計如晶圓堆疊(Wafer on Wafer,...