- Advertisement -
首頁 標籤 Arm

Arm

- Advertisment -

機器學習邁向物聯網終端 神經網路加值MCU邊緣智慧

基於各方考量,如延遲、耗電量、成本、網路頻寬、可靠性、隱私與安全等,機器學習(ML)演算法正朝物聯網(IoT)終端的應用發展。因此,廠商對於開發類神經網路(NN)解決方案,並將它們部署在微控制器系統這類低功率終端裝置的興趣與日俱增。為促成這類部署,Arm提出CMSIS-NN。這是一種經優化的軟體核心開放原始碼函式庫,可極大化其產品Cortex-M核心的NN效能,而且只需使用最小的經常性記憶體。本文進一步提出NN架構探索的方法,以CIFAR-10數據集的影像檔分類為例,開發適用在條件受限的裝置模型。 MCU降低運算延遲 演算法提升NN準確性 聯網裝置或物聯網過去幾年內快速擴展,到2035年,各區市場的聯網裝置總數預測將達到1兆個。這些物聯網終端裝置通常包含數個可以搜集數據的感測器,包括音訊、視訊、溫度、溼度、GPS位置與加速度等。通常大多數感測器搜集到的數據由雲端的分析工具進行處理,以便運作各式的應用,如工業監控、家庭自動化與健康照護。不過隨著物聯網節點數目增加,對網路的頻寬帶來相當的負擔,同時也增加物聯網應用的延遲性。此外,對雲端的依賴也造成在網路連線不穩定或有限的區域,部署物聯網應用相當具有挑戰性。這個問題的解決方案之一是終端運算,這種運算在數據的源頭、也就是物聯網的終端節點進行,因此可以降低延遲,並節省數據通訊消耗的能源。 類神經網路架構的解決方案,針對如影像分類、語音辨識與自然語言處理等複雜的機器學習應用,已經展現出與人類一樣水準的準確性。有鑑於運算的複雜性與資源的需求,NN的執行絕大多數都局限於高效能的伺服器CPU,或專用硬體(如GPU或加速器)的雲端運算,但會讓物聯網應用增加延遲。而如果在數據的源頭(通常是微控制器)立即進行分類,可以降低整體的延遲以及物聯網終端與雲端間數據通訊的能源消耗。不過在微控制器部署NN,有下列挑戰: ・有限的記憶體使用量:微控制器系統通常只有10幾到100多KB的可用記憶體。整個類神經網路模型,包括輸入/輸出、權重與啟動,都必須在如此小的記憶體上限內運行。 ・有限的運算資源:許多分類任務都有不斷線啟動與即時的要求,這會限制每個類神經網路推論的總運算次數。 這些挑戰可以從裝置與演算法的角度加以應對。一方面在執行類神經網路工作負載時,可以靠優化低階運算核心來達成更佳的效能與更小的記憶體使用量,並藉此提升這些微控制器的機器學習能力,協助微控制器處理更大型與更複雜的NN。另一方面,類神經網路可以靠NN架構的探索設計與優化目標硬體平台。此方法可以在固定的記憶體與運算配置上限內,提升NN的品質,也就是準確性。 下一個段落中,筆者提出CMSIS-NN的概念。CMSIS-NN是大量的高效類神經網路核心,開發目的是讓鎖定智慧物聯網終端裝置的Arm Cortex-M處理器核心上的類神經網路,極大化效能並極小化記憶體的使用量。架構在CMSIS-NN核心基礎上的類神經網路推論,可以達成4.6倍的Runtime/數據傳輸量提升,以及4.9倍的能源效率提升。文章的第三個段落則以使用CIFAR-10數據集的影像分類應用為例,針對微控制器記憶體/運算限制,提出搜尋類神經網路架構的技巧。 CMSIS-NN提升核心Runtime/傳輸量 CMSIS-NN類神經網路核心的總覽(圖1),核心編碼包含兩個部分:NNFunctions與NNSupportFunction。NNFunctions包含實作常見的類神經網路層類型的函數,如卷積、深度可分離卷積結構、全連接(也就是內積)、池化與啟動。這些函數可以讓應用程式碼使用,以實作類神經網路的推論應用。核心API則刻意保持簡單,以便針對TensorFlow、Caffe或PyTorch等所有機器學習框架輕鬆重新鎖定。NNSupportFunctions包含公用的程式函數,例如NNFunctions使用的數據轉換與激勵函數表。應用程式碼也可使用這些函數來建構更複雜的NN模組,如長短期記憶(LSTM)或閘控再流裝置(GRU)單元。 圖1 CMSIS-NN類神經網路核心總覽 對於某些核心,如全連接與卷積的核心,本文會實作不同版本的核心函數。提供一個針對所有網路層參數不必改變就可以通用的基本版本。同時也實作包括進一步優化技巧的其它版本,它們可能具有變形輸入,或是對網路層參數有某些限制。 固定點量化 研究顯示,即便是低精密度定點表示法,NN的運作依然良好。固定點量化可以協助避免進行昂貴的浮點運算,並降低儲存權重與啟動的記憶體使用量,這對資源受限的平台極為關鍵。儘管不同網路或網路層的精密度需求可能不同,CPU很難運行帶有不同位元寬度的資料類型,因此筆者的團隊開發了同時支援8位元與16位元數據的核心。 核心採用跟CMSIS-DSP裡使用的資料類型格式相同,也就是把q7_t當作int8、把q15_t當作int16,並把q31_t當作int32。執行量化時,假定固定點格式具有兩次方的定標。量化格式以Qm.n代表,而代表值是A×2-n,其中的A是整數值而n是Qm.n的一部分,代表該數字針對分數部分使用的位元數,也就是顯示數基點的所在地。跳過偏差用的定標因素,並把它以參數輸出至核心;因為是二次方定標的關係,定標的實作按位元移位操作。 在NN的運算期間,代表不同數據,也就是輸入、權重、偏差與輸出的固定點可能不同。bias_shift與out_shift這兩個輸入參數,則為用來替運算調整不同數據的定標。 下列方程式可以用來估算移動值: 其中的ninput、nweight、nbias 與 noutput,分別是輸入、權重、偏差與輸出中的分數的位元數。 軟體核心優化 這個段落突顯了在CMSIS-NN裡已進行的優化工作,以提升效能並降低記憶體的使用量。 1.矩陣乘法:矩陣乘法是類神經網路中最重要的運算核心。這個工作的實作,是使用CMSIS-DSP內的mat_mult核心。如圖2所示,矩陣乘法核心是以2×2核心實作,與CMSIS的實作類似。因此可以允許部分數據再次使用,也可以節省載入指令的總筆數。累積是使用q31_t資料類型完成,而兩個運算單元都屬於q15_t資料類型。筆者使用相對應的偏差值,讓累加器初始化。運算的執行則是使用專用的SIMD MAC指令_SMLAD。 圖2 具有2×2核心的矩陣乘法的內迴圈。每個迴圈運算兩行與兩列點乘積結果,也就是產生四個輸出 2.卷積:卷積網路層藉由在輸入特徵映射中運算過濾器權重與小型接受區域之間的點乘積,擷取新的特徵映射。通常來說,CPU架構的卷積實作可以解構成輸入紀錄、擴展(也就是im2col與Image-to-column)以及矩陣乘法操作。im2col是把類影像的輸入轉化成「行」,而「行」則代表每個卷積過濾器需要的數據。圖3即為im2col的一個範例。 圖3 具3×3核心、填充1與步數2的im2col的2D影像範例 im2col主要的挑戰之一是記憶體使用量的增加,因為輸入影像中的畫素在im2col輸出矩陣中重複。為了紓解記憶體使用量問題、同時維持im2col的效能優點,卷積核心實作了部分的im2col。核心一次只會擴展兩行,這已經足夠從矩陣乘法核心取得大幅的效能提升,同時把記憶體負擔維持在最小。影像數據格式也會影響卷積的效能,特別是im2col的效率。兩種最常見的影像數據格式是頻道為第一的CHW(頻道-高度-寬度),與頻道為最後的HWC(高度-寬度-頻道)。維度的順序則與數據步數的順序一樣。在HWC格式中,頻道的數據以步數1儲存,沿著橫向寬度的數據則是以頻道數的步數儲存;沿著縱向高度的數據,則以(頻道數×影像寬度)步數儲存。 只要權重與影像的維度順序一樣,數據的布局對於矩陣乘法的運作就沒有影響,im2col只會與寬度及高度的維度一起運作。HWC式樣的布局可以促成高效率的數據移動,因為每個畫素的數據(也就是同樣的x與y位置)是連續地儲存,並且可以用SIMD指令有效率地進行複製。為了驗證這一點,筆者實作CHW與HWC版本,並比較它們在Arm Cortex-M7的Runtime。圖4顯示了實作結果,把HWC輸入固定為16×16×16,並很快輸出頻道數目。當輸出頻道值為零時,代表軟體只執行im2col,並沒有進行任何矩陣乘法的運作。與CHW布局相比,HWC擁有較短的im2col Runtime,但矩陣乘法效能卻相同。因此,本文用HWC數據布局來實作卷積核心。 圖4 CHW與HWC數據布局卷積執行時間的比較。兩種布局都有同樣的矩陣乘法runtime,但HWC的im2col runtime比較短 CMSIS-NN結果 測試卷積神經網路(CNN)的CMSIS-NN核心,CNN則利用CIFAR-10數據集進行訓練。數據集包含6萬個32×32的彩色影像,並分為十個輸出類別。網路拓撲是基於Caffe內提供的內建範例,具有三個卷積網路層與一個完全連結的網路層。所有網路層的權重與激勵數據都量化成q7_t格式。Runtime則是用具有一顆時脈216MHz的Arm Cortex-M7核心的意法半導體(ST)NUCLEO-F746ZG Mbed開發板進行測量。 整個影像分類中的每個影像,大約花費99.1微秒(相當於每秒10.1張影像)。CPU在這個網路運行的運算吞吐量,大約是每秒249百萬運算(MOps)。預先量化的網路針對CIFAR-10測試集達成80.3%的準確率。用Arm Cortex-M7核心運行的8位元量化網路,則達成79.9%的準確率。使用CMSIS-NN核心的最大記憶體使用量約為133KB,此時用部分的im2col來實作卷積以節省記憶體。接下來則進行矩陣乘法。少了部分im2col的記憶體使用量,大約為332 KB,此時神經網路無法在開發板上使用。為了量化CMSIS-NN核心對既有解決方案帶來的優點,選擇使用一個1D卷積函數(來自CMSIS-DSP的arm_conv)、類Caffe池化與ReLU,實作一個基準線版本。 針對CNN應用,表1總結基準線函數與CMSIS-NN核心的比較結果。與基準線函數相比,CMSIS-NN核心的Runtime與吞吐量分別提升2.6倍與5.4倍,節能方面的提升也與吞吐量的提升相近。 硬體條件限制NN模型 這個段落裡,比較使用影像分類應用為範例,說明為部署應用的硬體平台,也就是微控制器選擇正確類神經網路架構的重要性。為此,需要先瞭解微控制器的硬體限制。微控制器通常包含處理器核心、一個當成主記憶體的靜態隨機存取記憶體(SRAM),以及用來儲存編碼與數據的嵌入式快閃記憶體。表2顯示具有Arm Cortex-M核心的一些市售微處理器開發板,它們擁有不同的運算與記憶體容量。 微處理器系統中的記憶體數量,會限制系統可運行的類神經網路模型的大小。除了記憶體限制,類神經網路的龐大運算需求也會為在微控制器上運行NN,帶來另一個關鍵限制:為了維持低耗電,通常都以低時脈運行。因此,必須選擇對的NN架構,來配合部署NN模型的硬體在記憶體與運算上的限制。為了評估在不同硬體限制條件下神經網路的準確性,筆者選擇三個不同尺寸的系統配置,並導出每個配置需要的類神經網路需求(表3)。假定每秒標稱可進行10個影像的分類推論(也就是每秒10幀),以便導出神經網路的需求。 影像分類用神經網路架構 1.卷積神經網路:CNN是電腦視覺應用最受歡迎的類神經網路架構。CNN包含多個依規格化散布的卷積網路層、池化與非線性激勵網路層。卷積網路層將輸入的影像解構到不同的特徵映射,從初始網路層中如邊緣、線條與曲線等低階特徵,到後面網路層的高階/抽象特徵。當代最頂尖的CNN包含100多個到1,000多個這種卷積網路層,而最後擷取的特徵則由完全連結的分類網路層分類至輸出類別。卷積運作是CNN最關鍵的運作,並且非常耗時,有超過九成的時間都花在卷積網路層上。 2.近期的高效NN架構:為了降低CNN的運算複雜性,有人提議用深度可分離卷積網路層當成標準卷積運作的高效率替代品。也有人提出利用2-D深度卷積接著1-D逐點卷積,取代標準的3-D卷積,並提出名為MobileNets的高效率NN類別。ShuffleNets利用混合 頻道上的深度卷積以及群組軟體1×1的卷積,來提升緊湊模型的準確性。MobileNets-V2藉由增加捷徑連接進一步提升效率,並協助深度網路的收斂。整體來說,已經有許多高效率的神經網路架構提案,可以用來開發符合特定硬體預算的NN模型。 硬體條件受限的NN模型的搜尋 筆者使用具捷徑連接的MobileNet架構,它類似讓硬體條件受限的類神經模型,進行搜尋的ResNet模型裡的架構。網路層的數量、每層網路層的特徵數量、卷積過濾器的維度與步數,被當成這次搜尋的超參數。訓練這些超參數的所有組合相當耗時,並且不太實際。因此需要反覆執行超參數的竭盡式搜尋、計算模型的記憶體/運算需求,並且只訓練能配合硬體預算限制的模型。隨後從之前的集用場選擇超參數,以縮小搜尋空間,並繼續下一更新的模型搜尋。圖5為超參數搜尋的範例,這個範例顯示準確性、運算的數量,以及每個模型的參數。 圖5 利用CIFAR-10數據集進行影像分類的類神經網路超參數搜尋vs以泡泡尺寸顯示的運算及參數數量 經過幾個更新後,表4顯示於硬體條件限制內具有最高準確性的模型。請留意,由於這並不是對所有超參數進行的極盡式搜尋,因此在搜尋期間可能會漏掉一些符合硬體條件限制、且準確度極高的類神經網路模型。結果顯示這些模型擴大規模沒有問題,且針對不同的硬體預算,準確性在不同層級出現飽合。例如,針對200KB與每秒20百萬次運算的記憶體/運算預算,模型的準確性大約在85%左右飽合,並且受到硬體的運算能力限制。瞭解類神經網路的準確性是否受運算或記憶體資源限制,對於硬體平台選擇的各種利弊得失,可提供關鍵的洞察。 強化神經網路效能 機器學習演算法已證實可以實現一些人類能力等級的效能,所執行的複雜認知任務。在全新高效類神經網路架構與優化的NN軟體協助下,這些演算法正慢慢地朝物聯網的終端移動,以便類神經網路在這些終端裝置高效運作。在微控制器裝置常見的記憶體/運算限制下,提出執行NN模型搜尋的技巧,並使用影像分類為例,進一步提出優化CMSIS-NN內的NN核心的方法,以便在最小的記憶體使用量下,極大化Cortex-M核心的神經網路效能。 (本文作者Naveen Suda為Arm主任工程師;Danny Loh為Arm機器學習總監)
0

Arm與沃達豐運用通用CPE攜手向前邁進

多年來,用戶端設備(CPE)已發展成熟,有利於推動創新。數億個CPE裝置如網路開關、Wi-Fi路由器與防火牆設備已部署在企業客戶端,並由電信服務供應商負責維修。CPE在技術複雜性或效能要求方面雖與伺服器相當,但在彈性方面就與應用伺服器或個人電腦(PC)不同。除了高階的型號,多數CPE只能為特定數量執行某些固定功能。 近期,軟體定義一切(Software Defined-everything)搭配虛擬化與容器技術的興起,加快了市場對可配置或再程式化的通用CPE(uCPE)的興趣。當uCPE與網路功能虛擬化(NFV)一起使用,可以降低客戶覆蓋區配置網路服務所需的裝置數量,並降低相關的安裝、維護與支援的費用,同時提供客戶在毋需更換硬體情況下,即可升級服務的能力。 Arm持續推動uCPEs核心的創新來降低成本、提高能源效率並加速網路設備、邊緣伺服器和其他設備的效能。透過如ServerReady與Project Cassini等平台,Arm架構裝置的生態系統已準備好重塑市場。基於Arm架構的uCPEs運行在雲端原生的軟體堆疊,可從4擴展到32個內核,並為廣大的市場提供企業級連接服務。 為了證明這些優勢可以落實,Arm、恩智浦半導體、Telco Systems和沃達豐開發了一種概念驗證uCPE,可支援多種企業服務,如SD-WAN、路由器運作和防火牆。此uCPE有效結合CPE紮實的可靠性,並具有易於增減服務的能力。許多應用已經在Telco Systems NFVTime的混合虛擬化與容器平台上,推出並通過測試。 受惠於NXP Layerscape處理器內的Arm技術,能源消耗、碳排放與營運成本預期都可降低。此外,Telco Systems平台藉由支援各種容器化應用與NFV的緊密整合虛擬化平台,與硬體的高效率相得益彰。Arm已展現以前所未見的全新功耗效率,達成uCPE需要的效能,而Arm架構的uCPE解決方案,可用正常情況下35瓦電力運作,其功耗約相當於x86 uCPE系統的1/3。
0

傳Nvidia將從軟銀手中收購Arm

近日據傳軟銀集團(Softbank)將出售旗下晶片公司Arm,而Nvidia可能出資320億美元收購Arm。彭博社報導指出,在軟銀有意轉售Arm的消息出現後,Nvidia是唯一出價的企業,而兩方預計在幾週內談成收購協議。 Nvidia可能出資320億美元收購Arm (圖片來源:Nvidia) 總部位於英國劍橋的Arm以設計行動裝置的晶片聞名,處於Nvidia在產業中尚未獲得的地位。若收購成真,採用Arm架構的廠商蘋果(Apple)、高通(Qualcomm)、英特爾(Intel)等,有權要求新的收購單位提供與原本相同的處理器架構使用權。 Nvidia作為全球最大的圖形處理器供應商,其用於遊戲娛樂的零組件也不斷朝向新的領域發展,如研發人工智慧(AI)應用於資料中心與自駕車的處理器。如果結合Arm在CPU上的設計實力,若能提供Nvidia可擴充CPU並將其整合進GPU之中,Nvidia未來便有機會與英特爾及AMD競爭。 實際出售Arm之前,軟銀已經透過出售或公開發行等方式,試圖減少在Arm的持股。即便軟銀因為Arm財報虧損而決定出售Arm,基於未來智慧汽車、資料中心及網路設備的進展迅速,市場上仍看好Arm的前景。根據New Street Research LLP推估,如果Arm在明年IPO,其市值可能達440億美元,2025年則預估增加至680億美元。
0

Cartesiam優化意法開發板 推出新版AI軟體工具

Cartesiam推出針對意法半導體(STMicroelectronics, ST)STM32開發板優化的新版NanoEdge AI Studio軟體工具。NanoEdge AI Studio開發環境消除傳統AI開發障礙,並針對缺乏機器學習專業資源的企業而設計。新版本讓任何嵌入式開發者都可以利用STM32微控制器快速開發AI解決方案。在其諸多優化功能中,還可直接透過STM32的串列/USB連接埠和Cartesiam加強版自動資料符合性檢查和品質驗證工具在NanoEdge AI Studio中記錄現場資料。 NanoEdge AI Studio讓系統設計人員可以利用低功耗Arm微控制器,將機器學習演算法直接整合到連網裝置、家電、工業機床等各種產品設備。該軟體讓設備能夠學習正常行為,檢測該行為的任何變化,即使在複雜的雜訊很大的環境中也能發現異常行為。 新版提供一個新硬體平台選項,讓開發者可以直接選擇意法的Nucleo-F401RE或Nucleo-L432KC開發板。在選擇這些板子後,使用者可以解鎖設計流程的最後一步,並下載可在所選硬體平台上的自訂機器學習函式庫。 意法半導體AI解決方案經理Miguel Castro表示,ST微控制器的使用者不僅可以從Cartesiam的解決方案中受益,而且還能繼續使用已經習慣的電路板生態系統和開發環境。透過為ST的神經網路開發環境STM32Cube.AI增加一個簡易的機器學習函式庫產生功能。 Cartesiam的執行長Joel Rubino則表示, NanoEdge AI Studio已被世界各種規模之企業用於開發預測性維護、詐欺偵測和智慧安全解決方案。為特定的STM32板專門量身訂製,新版NanoEdge AI Studio將為我們的客戶開發測試新的配套設備以及內部預測性維護子系統,提供一個可靠的軟硬體平台。
0

Arm專注晶片研發 IoT軟體部門分拆至軟銀

日前Arm宣布將兩個軟體單位拆分到日本的母公司軟銀,以專注在核心的晶片研發業務上。Arm表示,希望在今年9月完成部門的轉移。 Arm將物聯網部門拆分給軟銀以專注晶片研發。來源:Arm 2016年,電信營運商軟銀以320億美元收購Arm,成為軟銀目前為止最大的一筆交易。當時收購的其中一個原因,即是軟銀有意將版圖擴及物聯網領域。原本隸屬於Arm的幾個物聯網(IoT)單位,主要的工作是協助購買晶片的客戶管理聯網裝置的數據,現在預計於今年9月轉移到軟銀。一直以來Arm在市場上十分看好物聯網發展,並預測2035年會有一兆個裝置聯網,而裝置所用晶片皆包含其智慧財產權,Arm能透過授權獲利。 目前多數的行動裝置,如手機、平板都採用Arm的晶片,現在Arm擴及車用、資料中心及其他設備的處理器。而為了推動Arm的業務進展,軟銀計畫在2023年將Arm重新上市。
0

蘋果Mac SoC預計2021年上半年量產 成本可望大幅降低

根據TrendForce旗下半導體研究處調查,蘋果上月正式發表自研ARM架構Mac處理器(以下稱Mac SoC),宣布Mac預計今年開始逐步導入Apple Silicon,首款Mac SoC將採用台積電5奈米製程進行生產,預估此款SoC生產成本將低於100美金,更具成本競爭優勢。 ​ TrendForce指出,台積電目前5奈米製程僅計畫用於2020年新款iPhone12的A14 Bionic SoC進行批量生產中,以及計劃搭載於2021年新款iPad的A14X Bionic SoC將於第三季開始小量投片,而Mac SoC預計在2021上半年開始投片生產,因此實際應用Apple Silicon最新系列處理器的Mac產品,預估將在明年下半年問世。 由於ARM架構早期定義在省電的優異表現,已成功鞏固手機市場,隨著近年在運算效能上的高速成長,同時能夠兼顧低功耗與高效能表現,可望在高速運算市場與Intel競爭。此外,目前台積電製程已超前Intel近兩個世代,可能為促使蘋果取代Intel CPU的成熟關鍵之一。然而,蘋果此舉的關鍵要素仍在於成本考量與整體生態系的實現,雖然Apple自行研發芯片需委由台積電製造,但相較於目前市售200至300美元的Intel 10奈米入門款雙核心Core-i3,採用台積電5奈米製程製造的Mac SoC成本預估落在100美元左右,將更具優勢。 另外,2021年Intel產品規劃仍在10奈米製程,隨著Apple Silicon進入5奈米製程世代,在製程微縮的影響下,相同晶片尺寸能整合的電晶體數量將大幅增加,效能與省電表現將有機會與Intel主流處理器競爭。
0

Arm新GPU虛擬化功能驅動次世代車用體驗

根據主要車廠的意見,消費者希望在車內享受類似智慧手機體驗的需求越來越高。事實上,儘管當下經濟大環境不佳,但從照後鏡的替代科技、到抬頭顯示器,為消費者帶來不同創新、並驅動更多車內顯示螢幕的需求仍然沒變。 這些對於更沉浸、更類似智慧手機的車載體驗的需求,讓 Arm 處於獨特的位置。Arm作為數位駕駛艙解決方案(85%)的車載資訊娛樂(IVI)解決方案)與智慧手機的廠商(99% 的全球智慧手機都是建構在 Arm 的技術上)、上述兩種應用領域的專業能力,都一起應用在 Arm Mali 影像處理器(GPU)。Mali GPU 是業界出貨量第一的影像 IP,也是全球無所不在的影像處理器。 隨著車載顯示器需求的提升,在這些顯示器上運行更先進的應用的機會也同步增加。Arm為了協助龐大生態系中為數眾多的開發人員可以應對這些需求,發表全新版本的 Arm Mali 驅動程式開發套件(DDK),以便與 Mali GPU 一起支援數位駕駛艙使用場景的關鍵需求。Arm 為各個顯示螢幕帶來無縫的、順暢的影像處理的經驗,代表 Mali GPU 與 Mali DDK...
0

AIoT應用含苞待放 邊緣推論晶片迎來戰國時代

相較於AI雲端訓練領域的蓬勃發展,邊緣推論則像是一片含苞待放的花園,各式各樣爭奇鬥艷的花朵準備盛開,智慧物聯網AIoT應用破碎化,很少有一個應用可以像過去主流應用一樣每年創造數億或10幾億出貨量的產業規模,每個應用的需求又各自不同;不過,業界估算整體AIoT產業的規模至少數十億甚至上百億,邊緣推論晶片未來幾年產業發展潛力十足。 目前人們生活中的絕大部分應用都需要機器學習(Machine Learning, ML)及邊緣運算解決方案,如語音辨識、人臉識別、符號偵測與定位、車牌辨識等。大多數應用場景需要即時的用戶互動與反應,強調能在地處理解決問題,而毋需將數據傳遞到雲端並進行運算,透過邊緣運算可以降低雲端運算的負擔,也可以解決延遲性、安全性和可靠性的問題。 AI聲音/影像應用推陳出新 由於AI演算法與處理器能力持續提升,超高影像解析度(Super Resolution)、準確的物件偵測(Object Detection)、影像分類功能(Images Classification)、快速的語音翻譯功能(Speech Translation)在過去一年獲得大幅進展。Arm首席應用工程師沈綸銘(圖1)提到,AI為使用者帶來更好的使用體驗。例如超高影像解析度能讓使用者掌握影像細節,大幅提升觀賞影片的體驗;Avatars效果能讓使用者在自拍時使用有趣的即時動畫效果;相機的智慧夜拍模式,則讓光源控制更輕鬆,在低光源下拍攝也能媲美日拍一般清晰;此外運用生物辨識技術的臉部辨識與解鎖功能,能讓消費者使用手機付款時更安全更便利。 圖1 Arm首席應用工程師沈綸銘 沈綸銘進一步提到,除了超高影像畫質能提升觀影體驗,AI也能強化整體的聲光環境,例如偵測影視內容所需,調整或放大聲量,或者對應室內光線環境,調校顏色對比與鮮明度;還能為家中有小朋友的家長把關,當偵測到電視前方有小朋友,電視會自動停止播放不適合的影視內容,以上這些功能或多或少都有AI的協助。 觀察AI專用晶片進程,沈綸銘認為,未來產品將朝向分眾市場發展,根據各式需求,像是算力、功耗、軟體大小、軟體開發框架等而有不同的發展趨勢。以嵌入式系統為例,市場上需要在少量功耗增加下提供有效率的運算處理。相對的,以自駕車系統為例,市場上則需要可延展的AI運算加速器,以及通用性的軟體開發。 邊緣推論講算力拼省電 卷積神經網路(Convolutional Neural Network, CNN)是這波人工智慧技術發展的起點之一,也是目前發展成熟度最高的技術,其對影像辨識效果最佳,應用也非常廣泛;過去幾年在指紋辨識領域取得領先地位的神盾(Egis Technology),也將原先的核心技術與AI結合,神盾新技術研發處副總經理林郁軒(圖2)表示,以智慧型手機指紋辨識功能為例,透過邊緣AI的協助,在辨識時毋須喚醒應用處理器也無須聯網,對整個系統的耗電與反應速度大有幫助。 圖2 神盾新技術研發處副總經理林郁軒 神盾從指紋辨識起家,為了優化指紋辨識的效能而導入AI,再從指紋的影像辨識往人臉、行為、動作等各式影像辨識技術發展,林郁軒解釋,邊緣運算尤其是行動終端或AIoT類的產品,除了算力還會比較每瓦的TOPS,導入AI也不能犧牲電源效率,這應該也是未來邊緣推論晶片競爭的重點。以神盾現在的解決方案來看,每瓦約可提供1~2TOPS算力,預計年底將提升到3TOPS,2021年則將推出20TOPS的解決方案。 未來幾年,對於ASIC廠商而言,與客戶深入溝通,將需求明確定義,是非常重要的關鍵,林郁軒認為,這樣才可以透過專用演算法與電路的設計,提高晶片的每瓦TOPS。而在推論的精度上,一般而言精度越低效率越好,所以也有滿多設計會導入可調式精度架構,讓精度與效率可以依應用調整。 AI系統效能為更可靠指標 針對AI算力已經成為效能指標的代名詞,在台灣可以被稱得上是人工智慧「獨角獸」的耐能智慧(Kneron),該公司董事長劉峻誠(圖3)指出,算力就跟CPU的處理速度一樣,只是AI晶片的運算能力,並不能代表整個系統效能,一味追求TOPS或是每瓦TOPS的數字表現,容易陷入迷思。耐能於2019年推出KL520晶片,具備「可重組式人工智慧神經網路技術」,會根據不同任務進行重組,減少運算複雜度,保證在不同的卷積神經網路模型上的使用,無論是模型內核(Kernel)大小的變化、模型規模的變化,還是影像輸入大小的變化,都能保持高效率使用運算(MAC)單元。 圖3 耐能智慧董事長劉峻誠 劉峻誠並提出「Edge AI Net」的概念,透過AI晶片,能夠將生命賦予終端設備,實現去中心化、離線本地處理、主動智慧等目標。一般而言,目前的AI網路如CNN、遞歸神經網路(Recurrent Neural Network, RNN)或長短期記憶(Long Short-term Memory, LSTM)網路,都是由卷積、剪枝(Pruning)與矩陣乘法器組成,耐能的晶片可以因應不同應用需求進行網路重組,所以一款晶片可支援多個不同網路架構,並組成Edge AI Net,讓算力共享,而能達成1TOPS算力,創造3TOPS效率的效果。 2020年下半年耐能計畫推出新款的AI晶片KL720,具備可堆疊式設計,可因應網路效能需求大幅提高算力,也不放棄個別晶片的每瓦TOPS,同時進一步將Edge AI Net概念具體實現,以「Kneo」的名稱推廣其智慧物聯網AIoT概念。從2019年發表KL520開始,已經有數百萬顆晶片的出貨量,未來這些產品都將是一個網路節點,有機會成為AI時代最具影響力的架構。 邊緣推論晶片大發生 在PC與行動通訊時代,最後都只剩少數晶片大廠主導市場,如英特爾(Intel)、AMD與高通(Qualcomm)、聯發科(MTK)。AI目前是百花齊放的時期,會不會延續之前的發展模式還很難研判,但競爭的激烈程度可以想見;恩智浦(NXP)AI晶片專注於邊緣運算晶片和終端產品晶片。恩智浦半導體大中華區業務行銷資深經理黃健洲表示,於邊緣運算和閘道,提供如i.MX處理器和Layerscape處理器並加強NN/ML加速器運作為目標,提供更快的反應時間,而毋需連接到網際網路執行機器學習推論並提高隱私和安全。 除了開發人工智慧晶片外,恩智浦還打算為使用者提供完整的生態系統,建立開發環境,推出邊緣智慧(eIQ)SDK工具,用於收集資料庫和開發工具,建構MCU/MPU的機器學習應用程式,如i.MXRT10xx與i.MX8M Plus應用處理器。 而在行動通訊時代取得重大成功的Arm,同樣積極發展AI解決方案,沈綸銘說,Arm...
0

帶動5G數位沉浸體驗 Arm正式發表A78/G78/N78

Arm宣布推出新一代行動裝置IP解決方案,針對5G、AI、物聯網的應用需求。智慧手機已是人們生活的運算樞紐,Arm再次將行動運算產品線升級,包括Cortex-A78 CPU、Cortex-X客製化CPU、Mali-G78 GPU、Ethos-N78 NPU等。Arm執行長Simon Segars認為,科技將在生活中占有越來越大角色,由於疫情的影響與帶動,視訊會議使用率快速成長,VR也更廣泛進入生活,在5G的推波助瀾下,期待未來幾年內可以達成沉浸式體驗的願景,它也將成為人們仰賴、且不可或缺的科技的一部份。 Arm 2020全新5G系列IP Cortex-A78 Mali-G78 Ethos-N78 Cortex-A78將PC等級運算能力帶進智慧手機 Arm最高階的Cortex-A78 CPU滿足了效能提升的要求,同時兼顧耗電量與成本。Arm 副總裁暨行動裝置IP 事業群總經理Paul Williamson表示,該產品在1瓦功率消耗下效能比Cortex-A77裝置增加20%,利用更佳的終端機器學習(ML)效能對運算工作負載進行更有效率的管理,Cortex-A78將帶來持續多日、沉浸式的 5G 體驗。此外,由於Cortex-A78每一瓦可以產出更高的效能,適合具有多個或較大螢幕的新型可折疊式裝置所帶動的更大整體運算需求。 Cortex-A78運算能力更強大 Cortex-X客製化CPU方案 智慧手機效能不斷提升,已超越業界所有其它的運算裝置類別。Williamson提到,為了應對這種永無止境地針對最高效能的追求,Arm推出名為Cortex-X客製化CPU方案(Cortex-X Custom)計劃,讓合作夥伴在追求更高效能同時,擁有更多彈性與擴充性選項。 Cortex-X客製化CPU方案考量到客製化與差異化,超越Arm Cortex產品的傳統產品規劃,讓合作夥伴得以針對特定的使用場景,提供終極效能的解決方案。Arm Cortex-X1是這個方案下推出的第一個 CPU,也是迄今威力最強大的Cortex CPU。其峰值效能比Cortex-A77高出30%,可以為旗艦級智慧手機與其他高效能行動裝置提供更具競爭力的解決方案。 Mali-G78強化沉浸式行動娛樂 隨著2019年Valhall架構的Mali-G77 GPU推出,Arm的繪圖效能與效率大幅提升。2020年同樣基於Valhall架構的Mali-G78 GPU與Mali-G77相比,繪圖效能又再提升25%。Williamson指出,效能的精進主要是靠非同步設計(Asynchronous Top Level)、圖塊模組(Tiler Enhancements)的強化與像素相依性追蹤(Improved...
0

專訪Arm應用工程總監徐達勇 AI與資訊安全共構AIoT願景

5G時代各類裝置的效能要求大幅提高,AI將協助裝置提升智慧化的能力,Arm應用工程總監徐達勇表示,以手機來說,85%的機器學習應用仍在CPU、或者CPU+GPU的處理。雖然市場上有NPU或者APU的選項,但較為少數。以IoT裝置來說,很多機器學習的推論功能也都在Cortex-M4或者Cortex-M7上處理。另外,隨著機器學習(Machine Learning, ML)應用越來越多,未來也將運用到神經網路處理器(Neural Network Processor),比起加速器更為通用。 Arm應用工程總監徐達勇表示,5G時代各類裝置的效能要求大幅提高,AI將協助裝置提升智慧化的能力 Arm近年積極發展AI能力,相關IP都能進行AI運算,徐達勇指出,與Cortex A系列搭配的,會有Ethos-N77、N-57與N-37,以針對不同應用、不同效能的需求。而與Cortex M系列搭配、為低耗能應用的Ethos-U55 NPU。因應未來5G時代在機器學習的需求,Arm提供從CPU底層微架構上的加強,到在CPU上層的軟體框架,包含Arm Neural Network(NN)以及為Cortex M的CMSIS NN。 而裝置聯網的數量呈現爆發性成長,讓許多裝置暴露在資安風險下,Arm當然也意識到這樣的問題,徐達勇認為,先要做威脅分析,釐清是物理攻擊或是軟體攻擊,針對網路攻擊,Arm TrustZone主要防護軟體攻擊,將SoC設計分為Normal World與Secure World,可以保護一些需要高安全防護的應用。Arm Cyptocell/Crptoisland防護物理攻擊,如有人惡意去量CPU或SoC與Memory之間的讀寫然後去破解,就需要更高階的防護等級。Platform Security Architecture(PSA)則是防護架構,從分析、制定架構、實施、最後到裝置認證,PSA提供確認清單,協助用戶檢查其裝置安全要求是否到位。
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -