- Advertisement -
首頁 標籤 深度學習

深度學習

- Advertisment -

整合多階/類比記憶體運算 AI邊緣功耗難題迎刃而解

雖然使用者可以享受到這些AI應用帶來的益處,但同時仍有隱私、功耗、延遲和成本等諸多疑慮,這些疑慮便成為AI 應用的挑戰。如果有一個能夠從資料來源,執行部分/全部運算(推論)的本地處理引擎,那麼這些問題即可迎刃而解。傳統數位神經網路的記憶體存在功耗瓶頸,難以實現這一目標。為了解決此問題,可以將多階記憶體與類比記憶體內運算方法結合使用,使處理引擎滿足更低的毫瓦級(mW)到微瓦級(μW)功率要求,進而在網路邊緣執行AI推論。 雲端AI面臨隱私/功耗/延遲挑戰 如果透過雲端引擎為AI應用提供服務,使用者必須主動/被動上傳一些資料到雲端,運算引擎則在雲端處理資料並提供預測,然後將預測結果發送給終端用戶使用。以下概述資料處理過程面臨的挑戰(圖1): 1.隱私問題:對於Always-on、Always-aware設備,個人資料或機密資訊在上傳期間或在資料中心保存期限期間可能遭受濫用的風險。 2.不必要的功耗:如果每個資料位元都傳輸到雲端,則硬體、無線電、傳輸裝置以及雲端中不必要的運算都會消耗電能。 3.小批量推論的延遲:如果資料來自邊緣裝置,有時至少需要一秒才能收到雲端系統的回應。當延遲超過100毫秒時,人們便有明顯感知,造成不佳的用戶體驗。 4.資料經濟需要創造價值:感測器隨處可見且價格低廉,能夠蒐集大量資料,但是如果每筆資料都上傳到雲端進行處理的效益不高。 圖1 從邊緣到雲端的資料傳輸 要使用本地處理引擎解決這些挑戰,首先必須針對目標使用案例,利用指定資料集合對執行推論運算的神經網路進行訓練。這通常需要高效能運算和記憶體資源,以及浮點運算。因此,機器學習解決方案的訓練部分仍需在公共、私有雲或本地GPU、CPU和FPGA Farm上實現,同時結合資料集合來生成最佳神經網路模型。神經網路模型的推論運算不需要反向傳播,因此在該模型準備就緒之後,可利用小型運算引擎針對本地硬體進行深度優化。推論引擎通常需要大量乘積累加運算(Multiply Accumulate, MAC)引擎,隨後是啟動層,例如修正線性單元(ReLU)、Sigmoid函數或雙曲正切函數,具體取決於神經網路模型複雜度,以及各層之間的池化層。 大多數神經網路模型需要大量MAC運算。例如,即使是相對較小的「1.0 MobileNet-224」模型,也有420萬個參數(權重),執行一次推論需要多達5.69億次的MAC運算。此類模型中的大多數都由MAC運算主導,因此這裡的重點是機器學習計算的運算部分,同時還要尋找機會來建立更好的解決方案。圖2為一個簡單的完全連接型兩層網路。輸入神經元(資料)透過第一層權重處理。第一層的輸出神經元透過第二層權重處理,並提供預測,例如模型能否在指定影像中找到貓臉 。 圖2 完全連接的兩層神經網路 這些神經網路模型使用「點積」運算計算每層中的每個神經元,如下面的公式所示: Yi=∑i Wi Xi 〗 (為簡單起見,公式中省略了「偏差」項)。 在數位神經網路中,權重和輸入資料儲存在DRAM/SRAM中。權重和輸入資料需要移至某個MAC引擎旁以進行推論。根據圖3,採用這種方法後,大部分功耗都源自於獲取模型參數以及將資料登錄到實際發生MAC運算的ALU。從能量角度來看,使用數位邏輯閘的典型MAC運算消耗約250fJ的能量,但在資料傳輸期間消耗的能量超過運算本身兩個數量級,達到50皮焦(pJ)到100pJ的範圍。實際上,很多設計技巧可以大幅減少記憶體到ALU的資料傳輸,但整個數位方案仍受馮紐曼架構的限制。這意謂著,有大量的機會可以減少功率浪費。如果執行MAC運算的能耗可以從約100pJ減少到若干分之幾pJ,將產生什麼樣的可能性? 圖3 機器學習運算中的記憶體瓶頸 消除記憶體瓶頸並降低功耗 如果記憶體本身可用來消除之前的記憶體瓶頸(圖3),則在邊緣執行推論相關的運算就成為可行方案。使用記憶體內運算的方式,可以大幅減少必須移動的資料量,也就能消除資料傳輸期間浪費的能源。快閃記憶體單元運行時產生的主動功率消耗較低,在待機模式下幾乎不消耗能量,因此可以進一步降低能耗。 以Microchip子公司Silicon Storage Technology(SST)的memBrain技術為例,該解決方案奠基於SST的SuperFlash記憶體技術,這項技術已成為適用於微控制器和智慧卡應用的多階記憶體的公認標準。此解決方案內建一個記憶體內運算架構,允許在儲存權重的位置完成運算。權重毋需資料移動,只有輸入資料需要從輸入感測器,例如相機和麥克風,移動到記憶體陣列中,因此消除了MAC運算中的記憶體瓶頸。 這種記憶體概念基於兩大基本原理:一是電晶體的類比電流回應基於其臨界值電壓(Vt)和輸入資料,二則是基爾霍夫電流定律,即在某個點交匯的多個導體網路中,電流的代數和為零。瞭解這種多階記憶體架構中的基本非揮發性記憶體(NVM)位元單元也十分重要。圖4是兩個ESF3(第3代嵌入式SuperFlash)位元單元,帶有共用的抹除閘(EG)和來源線(SL)。每個位元單元有五個終端:控制閘(CG)、工作線(WL)、抹除閘、來源線和位元線(BL)。透過向EG施加高電壓執行位元單元的抹除操作,同時向WL、CG、BL和SL施加高/低電壓偏置訊號來執行程式設計操作,並且向WL、CG、BL和SL施加低電壓偏置訊號以執行讀取操作。 圖4 SuperFlash ESF3單元 採用這種記憶體架構,用戶可以透過微調程式設計操作,以不同Vt電壓對記憶體位元單元進行程式設計。記憶體技術利用智慧演算法調整記憶體單元的浮柵(FG)電壓,以從輸入電壓獲得特定的電流回應。根據最終應用的要求,可以在線性區域或閾下區域對單元進行程式設計。 圖5說明了在記憶體單元中儲存多個電壓的功能。例如,如果要在一個記憶體單元中儲存一個2位元整數值,需要使用4個2位元整數值(00、01、10、11)中的一個,進行記憶體陣列中,每個單元的程式設計。此時需要使用四個具有足夠間隔的可能Vt值之一,對每個單元進行程式設計。圖5的四條IV曲線分別對應於四種可能的狀態,單元的電流回應取決於向CG施加的電壓。 圖5 ESF3單元中的程式設計Vt電壓 受訓模型的權重透過程式設計設定為記憶體單元的浮柵Vt,因此,受訓模型每一層,例如完全連接層的所有權重,都可以在類似矩陣的記憶體陣列上進行程式設計(圖6)。對於推論運算,數位輸入,如數位麥克風,首先利用數位類比轉換器(DAC)轉換為類比訊號,然後應用到記憶體陣列。隨後該陣列對指定輸入向量並存執行數千次MAC運算,產生的輸出隨即進入相應神經元的啟動階段,隨後利用類比數位數轉換器(ADC)將輸出轉換回數位訊號。然後,這些數位訊號在進入下一層之前進行池化處理。 圖6 用於推論的權重矩陣記憶體陣列 這類多階記憶體架構模組化程度非常高,而且十分靈活。許多記憶體晶片可以結合在一起,形成一個混合了權重矩陣和神經元的大型模型(圖7)。在此案例中,M×N晶片配置透過各晶片間的類比和數位介面相互連接。 圖7 memBrain的模組化結構 截至目前,文章主要討論了該架構的晶片實施方案。提供軟體發展套件(SDK)可幫助開發解決方案,除了晶片外,SDK還有助於推論引擎的開發。SDK流程與訓練框架無關。用戶可以在提供的所有框架,包含TensorFlow、PyTorch等框架中,根據需要使用浮點運算創建神經網路模型(圖8)。創建模型後,SDK可協助量化受訓神經網路模型,並將其映射到記憶體陣列。在該陣列中,可以利用來自感測器或電腦的輸入向量執行向量矩陣乘法。 圖8 memBrain SDK流程 多階記憶體方法結合記憶體內運算功能的優點包括: 1.較低功耗:專為低功耗應用設計的技術。功耗方面的第一個優點是,這種解決方案採用記憶體內運算,因此在運算期間,從SRAM/DRAM傳輸資料和權重不會浪費能量。功耗方面的第二個優點是,快閃記憶體單元在臨界值模式下以較低的電流運行,因此主動功率消耗非常低。第三個優點是待機模式下幾乎沒有能耗,原因是非易失性記憶體單元不需要任何電力即可保存始終開啟設備的資料。這種方法也非常適合在權重和輸入資料的稀疏性時加以利用,如果輸入資料或權重為零,則記憶體位元單元不會啟動。 2.減小封裝尺寸:該技術採用分離柵(1.5T)單元架構,而數位實施方案中的SRAM單元基於6T架構。此外,與6T SRAM單元相比,這種單元是小得多。另外,一個單元即可儲存完整的4位元整數值,而不是像SRAM單元那樣需要4×6=24個電晶體才能實現此目的,從根本減少晶片上占用的空間。 3.降低開發成本:由於記憶體效能瓶頸和馮紐曼架構的限制,很多專用設備,例如NVIDIA的Jetsen或Google的TPU,趨向於透過縮小幾何結構提高每瓦效能,但這種方法解決邊緣運算難題的成本卻很高。採用將類比記憶體內運算與多階記憶體結合的方法,可以在快閃記憶體單元中完成晶片運算,這樣便可使用更大的幾何尺寸,同時降低掩膜成本(Mask Cost)和縮短開發週期。 邊緣運算應用的前景十分廣闊,然而,首先需要解決功耗和成本方面的挑戰,邊緣運算才能得到發展機會。使用能夠在快閃記憶體單元中執行晶片上運算的記憶體方法,可以消除主要障礙。這種方法利用經生產驗證的公認標準類型多階記憶體技術解決方案,且此方案已針對機器學習應用進行優化。 (本文作者為Microchip嵌入式記憶體產品開發總監)
0

機器學習邁向物聯網終端 神經網路加值MCU邊緣智慧

基於各方考量,如延遲、耗電量、成本、網路頻寬、可靠性、隱私與安全等,機器學習(ML)演算法正朝物聯網(IoT)終端的應用發展。因此,廠商對於開發類神經網路(NN)解決方案,並將它們部署在微控制器系統這類低功率終端裝置的興趣與日俱增。為促成這類部署,Arm提出CMSIS-NN。這是一種經優化的軟體核心開放原始碼函式庫,可極大化其產品Cortex-M核心的NN效能,而且只需使用最小的經常性記憶體。本文進一步提出NN架構探索的方法,以CIFAR-10數據集的影像檔分類為例,開發適用在條件受限的裝置模型。 MCU降低運算延遲 演算法提升NN準確性 聯網裝置或物聯網過去幾年內快速擴展,到2035年,各區市場的聯網裝置總數預測將達到1兆個。這些物聯網終端裝置通常包含數個可以搜集數據的感測器,包括音訊、視訊、溫度、溼度、GPS位置與加速度等。通常大多數感測器搜集到的數據由雲端的分析工具進行處理,以便運作各式的應用,如工業監控、家庭自動化與健康照護。不過隨著物聯網節點數目增加,對網路的頻寬帶來相當的負擔,同時也增加物聯網應用的延遲性。此外,對雲端的依賴也造成在網路連線不穩定或有限的區域,部署物聯網應用相當具有挑戰性。這個問題的解決方案之一是終端運算,這種運算在數據的源頭、也就是物聯網的終端節點進行,因此可以降低延遲,並節省數據通訊消耗的能源。 類神經網路架構的解決方案,針對如影像分類、語音辨識與自然語言處理等複雜的機器學習應用,已經展現出與人類一樣水準的準確性。有鑑於運算的複雜性與資源的需求,NN的執行絕大多數都局限於高效能的伺服器CPU,或專用硬體(如GPU或加速器)的雲端運算,但會讓物聯網應用增加延遲。而如果在數據的源頭(通常是微控制器)立即進行分類,可以降低整體的延遲以及物聯網終端與雲端間數據通訊的能源消耗。不過在微控制器部署NN,有下列挑戰: ・有限的記憶體使用量:微控制器系統通常只有10幾到100多KB的可用記憶體。整個類神經網路模型,包括輸入/輸出、權重與啟動,都必須在如此小的記憶體上限內運行。 ・有限的運算資源:許多分類任務都有不斷線啟動與即時的要求,這會限制每個類神經網路推論的總運算次數。 這些挑戰可以從裝置與演算法的角度加以應對。一方面在執行類神經網路工作負載時,可以靠優化低階運算核心來達成更佳的效能與更小的記憶體使用量,並藉此提升這些微控制器的機器學習能力,協助微控制器處理更大型與更複雜的NN。另一方面,類神經網路可以靠NN架構的探索設計與優化目標硬體平台。此方法可以在固定的記憶體與運算配置上限內,提升NN的品質,也就是準確性。 下一個段落中,筆者提出CMSIS-NN的概念。CMSIS-NN是大量的高效類神經網路核心,開發目的是讓鎖定智慧物聯網終端裝置的Arm Cortex-M處理器核心上的類神經網路,極大化效能並極小化記憶體的使用量。架構在CMSIS-NN核心基礎上的類神經網路推論,可以達成4.6倍的Runtime/數據傳輸量提升,以及4.9倍的能源效率提升。文章的第三個段落則以使用CIFAR-10數據集的影像分類應用為例,針對微控制器記憶體/運算限制,提出搜尋類神經網路架構的技巧。 CMSIS-NN提升核心Runtime/傳輸量 CMSIS-NN類神經網路核心的總覽(圖1),核心編碼包含兩個部分:NNFunctions與NNSupportFunction。NNFunctions包含實作常見的類神經網路層類型的函數,如卷積、深度可分離卷積結構、全連接(也就是內積)、池化與啟動。這些函數可以讓應用程式碼使用,以實作類神經網路的推論應用。核心API則刻意保持簡單,以便針對TensorFlow、Caffe或PyTorch等所有機器學習框架輕鬆重新鎖定。NNSupportFunctions包含公用的程式函數,例如NNFunctions使用的數據轉換與激勵函數表。應用程式碼也可使用這些函數來建構更複雜的NN模組,如長短期記憶(LSTM)或閘控再流裝置(GRU)單元。 圖1 CMSIS-NN類神經網路核心總覽 對於某些核心,如全連接與卷積的核心,本文會實作不同版本的核心函數。提供一個針對所有網路層參數不必改變就可以通用的基本版本。同時也實作包括進一步優化技巧的其它版本,它們可能具有變形輸入,或是對網路層參數有某些限制。 固定點量化 研究顯示,即便是低精密度定點表示法,NN的運作依然良好。固定點量化可以協助避免進行昂貴的浮點運算,並降低儲存權重與啟動的記憶體使用量,這對資源受限的平台極為關鍵。儘管不同網路或網路層的精密度需求可能不同,CPU很難運行帶有不同位元寬度的資料類型,因此筆者的團隊開發了同時支援8位元與16位元數據的核心。 核心採用跟CMSIS-DSP裡使用的資料類型格式相同,也就是把q7_t當作int8、把q15_t當作int16,並把q31_t當作int32。執行量化時,假定固定點格式具有兩次方的定標。量化格式以Qm.n代表,而代表值是A×2-n,其中的A是整數值而n是Qm.n的一部分,代表該數字針對分數部分使用的位元數,也就是顯示數基點的所在地。跳過偏差用的定標因素,並把它以參數輸出至核心;因為是二次方定標的關係,定標的實作按位元移位操作。 在NN的運算期間,代表不同數據,也就是輸入、權重、偏差與輸出的固定點可能不同。bias_shift與out_shift這兩個輸入參數,則為用來替運算調整不同數據的定標。 下列方程式可以用來估算移動值: 其中的ninput、nweight、nbias 與 noutput,分別是輸入、權重、偏差與輸出中的分數的位元數。 軟體核心優化 這個段落突顯了在CMSIS-NN裡已進行的優化工作,以提升效能並降低記憶體的使用量。 1.矩陣乘法:矩陣乘法是類神經網路中最重要的運算核心。這個工作的實作,是使用CMSIS-DSP內的mat_mult核心。如圖2所示,矩陣乘法核心是以2×2核心實作,與CMSIS的實作類似。因此可以允許部分數據再次使用,也可以節省載入指令的總筆數。累積是使用q31_t資料類型完成,而兩個運算單元都屬於q15_t資料類型。筆者使用相對應的偏差值,讓累加器初始化。運算的執行則是使用專用的SIMD MAC指令_SMLAD。 圖2 具有2×2核心的矩陣乘法的內迴圈。每個迴圈運算兩行與兩列點乘積結果,也就是產生四個輸出 2.卷積:卷積網路層藉由在輸入特徵映射中運算過濾器權重與小型接受區域之間的點乘積,擷取新的特徵映射。通常來說,CPU架構的卷積實作可以解構成輸入紀錄、擴展(也就是im2col與Image-to-column)以及矩陣乘法操作。im2col是把類影像的輸入轉化成「行」,而「行」則代表每個卷積過濾器需要的數據。圖3即為im2col的一個範例。 圖3 具3×3核心、填充1與步數2的im2col的2D影像範例 im2col主要的挑戰之一是記憶體使用量的增加,因為輸入影像中的畫素在im2col輸出矩陣中重複。為了紓解記憶體使用量問題、同時維持im2col的效能優點,卷積核心實作了部分的im2col。核心一次只會擴展兩行,這已經足夠從矩陣乘法核心取得大幅的效能提升,同時把記憶體負擔維持在最小。影像數據格式也會影響卷積的效能,特別是im2col的效率。兩種最常見的影像數據格式是頻道為第一的CHW(頻道-高度-寬度),與頻道為最後的HWC(高度-寬度-頻道)。維度的順序則與數據步數的順序一樣。在HWC格式中,頻道的數據以步數1儲存,沿著橫向寬度的數據則是以頻道數的步數儲存;沿著縱向高度的數據,則以(頻道數×影像寬度)步數儲存。 只要權重與影像的維度順序一樣,數據的布局對於矩陣乘法的運作就沒有影響,im2col只會與寬度及高度的維度一起運作。HWC式樣的布局可以促成高效率的數據移動,因為每個畫素的數據(也就是同樣的x與y位置)是連續地儲存,並且可以用SIMD指令有效率地進行複製。為了驗證這一點,筆者實作CHW與HWC版本,並比較它們在Arm Cortex-M7的Runtime。圖4顯示了實作結果,把HWC輸入固定為16×16×16,並很快輸出頻道數目。當輸出頻道值為零時,代表軟體只執行im2col,並沒有進行任何矩陣乘法的運作。與CHW布局相比,HWC擁有較短的im2col Runtime,但矩陣乘法效能卻相同。因此,本文用HWC數據布局來實作卷積核心。 圖4 CHW與HWC數據布局卷積執行時間的比較。兩種布局都有同樣的矩陣乘法runtime,但HWC的im2col runtime比較短 CMSIS-NN結果 測試卷積神經網路(CNN)的CMSIS-NN核心,CNN則利用CIFAR-10數據集進行訓練。數據集包含6萬個32×32的彩色影像,並分為十個輸出類別。網路拓撲是基於Caffe內提供的內建範例,具有三個卷積網路層與一個完全連結的網路層。所有網路層的權重與激勵數據都量化成q7_t格式。Runtime則是用具有一顆時脈216MHz的Arm Cortex-M7核心的意法半導體(ST)NUCLEO-F746ZG Mbed開發板進行測量。 整個影像分類中的每個影像,大約花費99.1微秒(相當於每秒10.1張影像)。CPU在這個網路運行的運算吞吐量,大約是每秒249百萬運算(MOps)。預先量化的網路針對CIFAR-10測試集達成80.3%的準確率。用Arm Cortex-M7核心運行的8位元量化網路,則達成79.9%的準確率。使用CMSIS-NN核心的最大記憶體使用量約為133KB,此時用部分的im2col來實作卷積以節省記憶體。接下來則進行矩陣乘法。少了部分im2col的記憶體使用量,大約為332 KB,此時神經網路無法在開發板上使用。為了量化CMSIS-NN核心對既有解決方案帶來的優點,選擇使用一個1D卷積函數(來自CMSIS-DSP的arm_conv)、類Caffe池化與ReLU,實作一個基準線版本。 針對CNN應用,表1總結基準線函數與CMSIS-NN核心的比較結果。與基準線函數相比,CMSIS-NN核心的Runtime與吞吐量分別提升2.6倍與5.4倍,節能方面的提升也與吞吐量的提升相近。 硬體條件限制NN模型 這個段落裡,比較使用影像分類應用為範例,說明為部署應用的硬體平台,也就是微控制器選擇正確類神經網路架構的重要性。為此,需要先瞭解微控制器的硬體限制。微控制器通常包含處理器核心、一個當成主記憶體的靜態隨機存取記憶體(SRAM),以及用來儲存編碼與數據的嵌入式快閃記憶體。表2顯示具有Arm Cortex-M核心的一些市售微處理器開發板,它們擁有不同的運算與記憶體容量。 微處理器系統中的記憶體數量,會限制系統可運行的類神經網路模型的大小。除了記憶體限制,類神經網路的龐大運算需求也會為在微控制器上運行NN,帶來另一個關鍵限制:為了維持低耗電,通常都以低時脈運行。因此,必須選擇對的NN架構,來配合部署NN模型的硬體在記憶體與運算上的限制。為了評估在不同硬體限制條件下神經網路的準確性,筆者選擇三個不同尺寸的系統配置,並導出每個配置需要的類神經網路需求(表3)。假定每秒標稱可進行10個影像的分類推論(也就是每秒10幀),以便導出神經網路的需求。 影像分類用神經網路架構 1.卷積神經網路:CNN是電腦視覺應用最受歡迎的類神經網路架構。CNN包含多個依規格化散布的卷積網路層、池化與非線性激勵網路層。卷積網路層將輸入的影像解構到不同的特徵映射,從初始網路層中如邊緣、線條與曲線等低階特徵,到後面網路層的高階/抽象特徵。當代最頂尖的CNN包含100多個到1,000多個這種卷積網路層,而最後擷取的特徵則由完全連結的分類網路層分類至輸出類別。卷積運作是CNN最關鍵的運作,並且非常耗時,有超過九成的時間都花在卷積網路層上。 2.近期的高效NN架構:為了降低CNN的運算複雜性,有人提議用深度可分離卷積網路層當成標準卷積運作的高效率替代品。也有人提出利用2-D深度卷積接著1-D逐點卷積,取代標準的3-D卷積,並提出名為MobileNets的高效率NN類別。ShuffleNets利用混合 頻道上的深度卷積以及群組軟體1×1的卷積,來提升緊湊模型的準確性。MobileNets-V2藉由增加捷徑連接進一步提升效率,並協助深度網路的收斂。整體來說,已經有許多高效率的神經網路架構提案,可以用來開發符合特定硬體預算的NN模型。 硬體條件受限的NN模型的搜尋 筆者使用具捷徑連接的MobileNet架構,它類似讓硬體條件受限的類神經模型,進行搜尋的ResNet模型裡的架構。網路層的數量、每層網路層的特徵數量、卷積過濾器的維度與步數,被當成這次搜尋的超參數。訓練這些超參數的所有組合相當耗時,並且不太實際。因此需要反覆執行超參數的竭盡式搜尋、計算模型的記憶體/運算需求,並且只訓練能配合硬體預算限制的模型。隨後從之前的集用場選擇超參數,以縮小搜尋空間,並繼續下一更新的模型搜尋。圖5為超參數搜尋的範例,這個範例顯示準確性、運算的數量,以及每個模型的參數。 圖5 利用CIFAR-10數據集進行影像分類的類神經網路超參數搜尋vs以泡泡尺寸顯示的運算及參數數量 經過幾個更新後,表4顯示於硬體條件限制內具有最高準確性的模型。請留意,由於這並不是對所有超參數進行的極盡式搜尋,因此在搜尋期間可能會漏掉一些符合硬體條件限制、且準確度極高的類神經網路模型。結果顯示這些模型擴大規模沒有問題,且針對不同的硬體預算,準確性在不同層級出現飽合。例如,針對200KB與每秒20百萬次運算的記憶體/運算預算,模型的準確性大約在85%左右飽合,並且受到硬體的運算能力限制。瞭解類神經網路的準確性是否受運算或記憶體資源限制,對於硬體平台選擇的各種利弊得失,可提供關鍵的洞察。 強化神經網路效能 機器學習演算法已證實可以實現一些人類能力等級的效能,所執行的複雜認知任務。在全新高效類神經網路架構與優化的NN軟體協助下,這些演算法正慢慢地朝物聯網的終端移動,以便類神經網路在這些終端裝置高效運作。在微控制器裝置常見的記憶體/運算限制下,提出執行NN模型搜尋的技巧,並使用影像分類為例,進一步提出優化CMSIS-NN內的NN核心的方法,以便在最小的記憶體使用量下,極大化Cortex-M核心的神經網路效能。 (本文作者Naveen Suda為Arm主任工程師;Danny Loh為Arm機器學習總監)
0

賽靈思助百度自動駕駛平台ACU量產

賽靈思(Xilinx)日前宣布,搭載賽靈思車規級晶片Zynq UltraScale+ MPSoC的百度車載運算平台ACU(Apollo Computing Unit)於偉創力的中國蘇州廠正式量產,這款硬體平台將率先應用於Apollo Valet Parking(AVP)自動代客停車產品。百度表示已經與多家OEM達成合作協定,其中中國新興車廠威馬汽車將在今年的車款率先搭載百度AVP產品。 百度自動駕駛運算平台 (資料來源:賽靈思) 百度自動駕駛技術部總經理王雲鵬表示,百度持續深耕自動駕駛領域並累積經驗,ACU進入量產意味著團隊已顯著強化車規級功能安全、自動駕駛產品商業化及軟硬體供應鏈管理等方面的能力。將攜手業界的合作夥伴,共同致力於ACU的研發設計。賽靈思作為國際FPGA供應商,為百度ACU提供了核心處理晶片,是其他解決方案無法提供的車規級量產效能。 百度ACU是量產型自動駕駛車載運算單元,包含多個系列產品以因應不同場景的運算需求,ACU生產線目前的年產能可達20萬套。其中,ACU-Advanced是業界首創的自動代客停車專用車載運算平台,提供整合軟硬體的解決方案。傳統的自動代客停車功能主要仰賴超音波雷達,而且在環境感測上必須更安全,所以需要結合停車系統進行更複雜的感測器融合,以良好的深度學習推論能力和運算力來處理複雜的駕駛環境。借助賽靈思車規級、異質多核的Zynq UltraScale+ 5EV平台的感測器和AI處理能力,新平台可支援多達5個攝影機、12個超音波雷達,同時預設毫米波雷達和光達介面,並相容於百度飛漿(PaddlePaddle)深度學習框架,以支援演算法的快速反覆運算和升級。 賽靈思擁有超過20年的汽車產業經驗,近14年來皆維持兩位數的出貨成長,尤其28奈米和16奈米產品系列的成功,成為賽靈思汽車業務成長的驅動力。賽靈思至今已在全球累計銷售超過1.9億片車規級晶片,其中7,500萬片用於量產型先進駕駛輔助系統(ADAS)。賽靈思服務的汽車企業超過200家,包括全球主要的汽車供應商、OEM和新創企業。
0

三向直搗技術/智慧應用難關 聊天機器人起腳射門

時至今日,全球各地,從制定相關決策的政府機關,大型上市公司與夾縫求生存的中小企業,無一不提出數位轉型、扶植新創、組織創意轉型等方向。而此篇文章將試圖探討在現今的技術條件與市場期待心理下,是否能夠因為使用新技術、或者開闢新賽道進行聊天機器人的市場突圍? 聊天機器人無法滿足使用者期待 科技的快速發展來自人追求快速、方便的本性,但人類的想法與思緒十分複雜,因此聊天機器人難以全面滿足使用者的需求。回想日常生活的溝通情境,當人們在日常溝通的時候,除了說出口的字句,對方的肢體動作與眼神有沒有影響到自身的判斷?讀者是否會自行腦補一些情境?尤其跟老闆、同事或下屬進行具目的性的談判對話時,語句之外的線索顯得更重要。 聊天機器人不夠聰明的原因,是它距離人類多模態交互的能力還很遙遠。現今最普遍和流行的生活應用,當屬智慧音箱(如Amazon的Echo),一般人在買回去的當下充滿興奮感,嘗試各種指令來挑戰智慧音箱的極限後,就將它放置在屋裡的某一角落,成為一個可有可無的家用品,無法實際融入使用者的生活情境中。即便仰賴大數據和人工智慧(AI)的相關技術持續更新,用戶體驗也漸入佳境,但仍缺乏具代表性的現象級App,無法滿足多數人的使用需求。另一方面,若人們嘗試降低自己對產品的期待,單純利用聊天機器人詢問明確的問題(如天氣),請它做一件明確的事情(如播放音樂),這樣的基本需求可以被滿足。 聊天機器人技術發展三向剖析 聊天機器人是一項技術整合的產物,其中牽涉的技術範圍有電腦視覺、自然語意、機器學習(Machine Learning, ML)與深度學習(Deep Learning, DL)等。本文根據市場調研機構Gartner所提供新興科技發展週期報告,來審視各個技術目前位處的位置、困境、與待解決的問題。 電腦視覺 電腦視覺(Computer Vision, CV)目前處於泡沫化的谷底階段,意即此技術無法滿足使用者的期待,導致大家對於它的創新了無興趣。CV從實驗室的前沿技術,到如今能夠聽懂人類的指令,花了整整半個多世紀,產生瞄準在新零售、醫療、工業製造和網路娛樂等應用的期待。然而,人工智慧情緒識別離開人類的干預,對複雜情感的理解和表達能力,仍須持續的技術突破。其中,利用AI判斷並理解實體環境的CV,不僅是辨識情緒的關鍵技術之一,也被公認為未來三至五年最重要的技術之一,不僅眾多新創企業投入,大企業也紛紛利用自己既有的優勢企圖先布局並搶占先機,現階段大約聚焦在下列4個發展方向: 1. 服務平台:提供機器學習開發工具和雲端服務的商業型平台,讓開發者毋需從頭自行建構。 2. 影音資料庫:利用海量資料進行機器學習的模型訓練,將使用者上傳的相片和影音資料,與個人特徵資訊進行連結,大量使用電腦視覺技術客製化廣告投放以增加營收。 3. 硬體製造:如NVIDIA、英特爾(Intel)的晶片製造。 4. 消費性產品:近期可期待者為手機人機互動的介面。 自然語意 自然語意(Natural Language Procession, NLP)與CV處於泡沫化谷底階段。自然語意發展分為兩大階段,一種是應用傳統的分詞執行自然語言處理,第二階段則是近年由於機器學習快速發展,大家開始應用機器學習執行NLP。透過NLP所能實現的功能包含神經機器翻譯(Neural Machine Translation)、智慧人機交互(就是所謂的聊天機器人,受限於技術,目前只能在特定場景實現多輪次的對話)、機器閱讀理解與機器創作。但如前言所述,現實狀況下,人與人當面溝通,仍會有語意上的誤解,在此情況下,如何期待科技可以奇蹟似地解決這一切?自然語言處理首先透過斷詞、理解詞,接下來是分析句子,包含語法和語義的自然解析這兩個步驟,再轉化為電腦容易處理與計算的形式。上述在處理時,需耗費大量的人力成本,除此之外,還牽涉建構者本身對於所屬領域的專業度、邏輯與理解能力(所謂的人工智慧訓練師)。此外,NLP毫無疑問的是一個未來巨大的市場,無論電腦視覺或是語音識別,想要實現更人性化的功能,就需要NLP的加持,同時可預期隨著NLP技術的不斷發展,將會逐漸呈現NLP、語音與視覺融合發展的趨勢。 機器學習/深度學習 機器學習與深度學習位處在過度期望的高峰階段,各方話題與議題熱度竄升。機器學習指的是可以從資料中歸納規則的方法,是第三波人工智慧發展的代表技術,而在眾多機器學習演算法中,深度學習則是近幾年成長最快,表現最好的技術。遺憾的是,截至目前為止,幾乎每個深度學習實踐者都認同的一件事是:深度學習模型數據效果有限。要實現真正的深度學習需要滿足下列三點,這三點可以協助讀者辨別此項技術到底是人工智慧還是科幻小說。 1. 大量的數據與活動:為了使神經網路能發現新的模型,就需要有大量的數據,這些數據可以透過反覆試驗來處理和分類。 2. 運算能力:假設已有一定量的有意義數據,則需要運算能力,所幸目前已有一系列更低成本的選擇,如微軟Azure等雲端託管服務。 3. 新的敏捷方法:最後,也是最重要的一點,需要採用新的敏捷方法思考和解決問題。 大型資料庫用於訓練精確模型的必要性已成為一個非常重要的問題,同時,需要低效的人工標注數據成為一個更大的挑戰。在當前的深度學習應用中,數據的問題無處不在,由於建基於大規模數據,當滿足所需環境和約束條件時,這些系統會產出令人驚豔的成果;但若不符合上述場景,它也可能完全失效。舉例來說,若有人試圖解決大量翻譯或無人駕駛的問題,則需花很長時間來思考重要數據中的所有因素,需先建構演算法,而在過程中有很高的失敗機率。雖說如此,深度學習和先進模型的興起仍是一次革命性的進步,加速了那些針對以前無法解決的問題之技術解決方案出現,在思維上邁出重要的一步。 聊天機器人短期內破局可能性具困難度 產業中的廠商若以業務角度分析,主要分為三類: 1. 2C公司:產品直接面對用戶,如Amazon的Echo,由於未能滿足人類對於AI的美好想像,距離規模化應用上有大段距離。 2. 2B公司:如金融領域的智慧監管系統、醫療領域的醫療問答和診斷助理等。但是實際效果仍牽涉上述自然語意建構的縝密度,與場景應用設計的順暢度而有不同。 3. 2G公司:為面向政府執行行政業務類的知識庫建構和問答業務,如政府服務大廳的引導型聊天機器人、一站式辦公機器人等。 從生態系統來看,聊天機器人可分為產品,框架(Framework)和平台三類;其中框架是為了加速產品的研發,以SDK或SAAS服務的型態,提供有市場敏感度,或創意點子的需求者可快速架構特定場景和領域的聊天機器人。 短期若要大規模地拓展市場,恐怕有一定的困難度,除非在上述的關鍵技術中突然有突破口,縱然如此,各式場景應用與垂直深化探索仍不斷地激起人們對未來的想像。相信未來的聊天機器人與虛擬生命,將會以更好的體驗和型態呈現在人們面前。 (本文作者任職於優拓資訊)  
0

Nervana神經網路處理器亮相 英特爾力推AI Everywhere

為實現人工智慧(AI)無所不在的目標,英特爾(Intel)將推出高性能AI加速器「Nervana神經網絡處理器」,並於近期釋出相關細節。新推出的神經網路加速器共有兩項產品,分別為專用於訓練(Training)的Nervana NNP-T,以及用於推論(Inference)的Nervana NNP-I。 英特爾總裁兼人工智慧產品事業群總經理Naveen Rao表示,為了在未來實現AI無所不在的願景,需要克服數據不斷生成的挑戰,並且確保企業能有效利用數據,在有意義的情況下處理數據並進行智慧化處理。同時,資料中心和雲端需要更高性能、更多擴展的運算方案以因應複雜的AI應用程序,也因此,在未來的AI願景當中,需要採用整體的解決方案,包含硬體、軟體再到應用程序。 英特爾總裁兼人工智慧產品事業群總經理Naveen Rao。 新推出的Nervana神經網絡處理器共有兩款產品,分別為專用於訓練(Training)的Nervana NNP-T,以及用於推論(Inference)的Nervana NNP-I。NNP-T旨在從頭開始構建大規模深度學習模型,推動深度學習訓練的界限,進而加快模型訓練時程,能在業者所預定的功耗、預算內完成。另外,為了滿足未來深度學習需求,Nervana NNP-T具備靈活性和可編程性,因此可以依據需求進行量身定制(Tailored),加速各種工作負載(包含現有的工作負載和未來新出現的工作負載)。 另一款NNP-I,則是專為推論而設計,具備高度可編程的特性,以滿足資料中心工作負載、深度學習推論需求,並進一步大規模加速深度學習部署。隨著AI開始變得無所不在,出現在各個應用之中,擁有一個易於編程,且具有低延遲、快速代碼移植功能,並支援所有主要深度學習框架的專用加速器,有助於企業更有效的發揮數據潛力。 英特爾指出,將數據轉化成訊息,最後再成為企業、消費者所需的知識,需要硬體、軟體、儲存、互連技術等相互支持,才得以發展並支援新興且日益複雜的AI應用及技術。而新推出Nervana神經網絡處理器便是秉持此一原則,以「從頭開始構建AI」的概念,讓客戶更能專注於發展AI應用和技術。
0

乘深度/機器學習浪潮 AI智慧監控應用興

根據市場研究機構Marketsandmarkets指出,影像監控的市場產值,將以每年13.1%複合成長率的速度成長,從2018年的368.9億美元,成長至2023年的683.4億美元。而機器學習(ML)與深度學習(Deep Learning)等AI技術,更將是提升監控系統效能,使其實現更多應用的最大關鍵。 邊緣監控應用起 晶片運算需求增 機器學習可被訓練,以識別模式、形狀、顏色、聲音、振動、溫度以及壓力等細微差別和差異,這對於即時檢測和識別十分重要,使得臉部辨識應用日益完善,以進行高級識別、驗證、搜索、預防和救援。至於深度學習,透過大量的監控影像和訓練之後,搭載深度學習的監控系統便可有效的進行對象和行為模式分析,進而提供更有效的數據。而隨著機器學習、深度學習等AI技術興起之後,AI監控應用也隨之浮現。 國立交通大學資訊工程學系教授兼網路研究所所長易志偉(圖1)表示,AI技術(如深度學習)的優勢在於,可降低影像處理的門檻,使得影像資料分析不再是一件複雜的工作,進而依此衍生出更多創新的應用,例如無人商店的AI監控應用便是其中一個例子。 圖1 國立交通大學資訊工程學系教授兼網路研究所所長易志偉表示,深度學習減低影像處理複雜度,得以實現各種影像創新應用。 易志偉說明,像是7-11所推出的X-Store,有著自助結帳櫃檯,需要先透過臉部辨識系統確認個人身分後,再以icash2.0靠卡付款;而在進入商店時也需透過臉部辨識系統建立會員。當然,除了無人商店外,智慧監控還可應用在許多地方,例如透過攝影機錄下羽球選手各個動作,像擊球、腳步移動、球的落點位置等,再進行資料分析,以提升選手的訓練效率。 賽靈思全球人工智慧解決方案市場行銷總監劉競秀(圖2)指出,到了行動物聯網時代,聯網設備的數量將大幅超過人口數量;而隨著AI興起,未來勢將走向AI+IoT的趨勢,像是智慧監控攝影機、自動駕駛汽車、智慧音箱、智慧家電等。換言之,日後這些設備將具備一定的運算能力,使其能透過本地推論、訓練,做出更準確的分析以改變人類日常生活。 圖2 賽靈思全球人工智慧解決方案市場行銷總監劉競秀指出,如何研發靈活、高效,且高性價比的AI解決方案是目前各大AI晶片供應商共同努力的方向。 劉競秀說明,不過,要實現AIoT的挑戰在於不同的應用場景需要不同的運算效能。例如自駕車需要在很短時間內對周遭環境進行檢測並做出判斷,這時候晶片的運算效能及資訊傳輸就必須相當迅速;然而,若是網路監控攝影機的話,由於其需長時間運作,進行長期監控,其對晶片的要求除了具備一定的運算能力外,還需要低功耗,避免過熱當機。 劉競秀指出,也因此,如何針對不同的應用場景提供靈活、高效,且高性價比的AI解決方案,是目前AI晶片供應業者致力發展的方向;而賽靈思便透過靈活性較高的FPGA協助產業盡速導入AI,實現更智慧的應用。例如賽靈思所推出的自行調適運算加速平台「ACAP」,能針對各種應用與工作負載需求,從硬體層面進行靈活變化。 據悉,在ACAP核心內有個全新世代的FPGA架構,其結合分散式記憶體與硬體可編程DSP模組、一顆多核心SoC,以及一個或多個軟體可編程且硬體自行調適的運算引擎,上述元件皆透過網路晶片(NoC)串連。此外,ACAP具高度整合的可編程I/O功能,依據不同元件類型,其功能涵蓋整合的硬體可編程記憶體控制器、先進的串列器技術、具領導地位的邊緣RF-ADC/DAC,到整合的高階頻寬記憶體(HBM)。 除了ACAP之外,賽靈思還具有DNNDK(Deep Neural Network Development Kit),其為深鑒科技所研發的AI異構計算平台DPU。 透過自主研發的原創深度學習SDK,涵蓋了神經網路Inference階段模型壓縮、編譯優化和高效運行時支持等各種功能需求,為深度學習應用開發和部署提供一套高效的解決方案。 耐能智慧(Kneron)產品行銷暨應用協理史亞倫(圖3)則指出,AI從雲端走到邊緣裝置的趨勢十分明顯,終端裝置有了AI運算能力之後,再跟雲端搭配,可以降低資料傳輸、運算分析的延遲性,不僅可實現更多創新應用,還可降低終端裝置與雲端間的連網布建成本。 圖3 耐能智慧產品行銷暨應用協理史亞倫透露,智慧監控開始從雲端走向終端,裝置中的處理器除須有高效能外,同時也須符合功耗和成本考量,為此,耐能採用NPU解決方案。 因應智慧監控需求,耐能備有新一代終端AI處理器系列NPU IP,其分為超低功耗版KDP 320、標準版KDP 520,以及高效能版KDP 720。此一處理器整體運算效能相較上一代產品提升三倍,運算能力(Peak Throughput)最高可達5.8 TOPS(每秒萬億次運算)。 據悉,新系列產品特色包括交錯式運算架構,讓神經網路架構中主要的卷積(Convolution)與池化(Pooling)運算可平行進行,提升整體運算效率;深度壓縮技術,可執行模型和運行中的資料和參數(Coefficient)進行壓縮,減少記憶體使用;動態儲存資源配置,讓共享記憶體(Shared Memory)和運作記憶體(Operating Memory)之間可以進行更有效的資源配置,提升儲存資源利用率且不影響運算效能;以及支援更廣泛的CNN模型。 史亞倫說明,邊緣運算應用十分多元,以智慧監控而言,不論是零售、交通、商業建築、安防等都會用到,且在各個領域中又細分無數個應用場景;有的需要精準人臉辨識,有的只須進行簡單車牌識別。因此,並非每個應用場景都須採用頂級、具超高運算能力的CPU、GPU或是DSP,否則會不符成本需求。 史亞倫進一步說明,因此,該公司便決定打造低功耗的NPU處理器。原因在於NPU處理器可說是專為深度學習設計,十分適合AI神經網路運算,並且有更多設計彈性。另外,有了低功耗、成本相對較低,同時還能進行邊緣AI應用的NPU晶片後,可讓市場有更多選擇,滿足對成本有較多考量的業者。 物聯網設備大增 資安防護不可少 物聯網和AI的興起,帶動許多創新應用興起,AI監控便是其中一例。然而,在使用AI監控提升安防效率之時,如何確保AI設備的資安,使其不被駭客竊取機密的資料,也十分重要。 台灣資通產業標準協會(TAICS)網路與資訊安全技術工作委員會技術長劉作仁(圖4)表示,物聯網應用和雲端息息相關,就連AI監控也不例外。使用者的裝置可以透過連線的方式,在雲端與終端裝置之間下載、上傳資料;而在這資料傳輸的過程之中,要如何實現完善的加密保護,是目前物聯網發展的重點。 圖4 TAICS網路與資訊安全技術工作委員會技術長劉作仁說明,物聯網應用和雲端息息相關,在資料傳輸的過程中,完善的加密保護可說相當重要。 為此,TAICS推動物聯網資安認驗證制度,期能落實各類型物聯網資安測試規範,推行物聯網產品與設備商落實資安檢測;並透過推動物聯網資安驗證制度,強化物聯網安全;最後則是建立物聯網資安標章制度,使消費者易於識別通過本資安驗證制度檢測之物聯網設備。 據悉,此一制度將先以與個人隱私息息相關的有線/無線網路攝影機為主,後續將會陸續針對其它各種物聯網設備。TAICS指出,物聯網盛行,使日常用品皆朝向數位化邁進,影像監控設備也是其中之一,但網路攻擊事件也隨之而來。有鑑於此,經濟部工業局與TAICS共同制定一系列針對影像監控系統中聯網設備之資安標準及測驗規範。
0

迎戰5G大數據運算難題 GPU力助電信商導入AI效能

5G高頻寬、低延遲與大資料量傳輸特性,預期將會徹底改變人們的生活,也意味著在5G時代將帶來處理大數據運算的難題。為此,電信商開始攜手GPU廠商,企圖以導入人工智慧(AI)效能的方式,解決5G資料量爆炸的課題。 NVIDIA全球電信產業發展負責人Soma Velayutham表示,雖然5G環境不會一蹴可幾,但不容置疑的是它與過去的通訊技術截然不同。舉例來說,智慧手機與雲端服務的普及化,使得消費者每天使用社群媒體和影音串流的應用服務逐漸增加,可看到4G用戶每天所產生約1GB數據資料量,而5G時代,在雲端AR/VR、車聯網、工業物聯網及智慧城市的帶動下,每天用戶所產生的資料將高達300GB,此現況也將為布局5G的電信業者帶來全新挑戰。。 Velayutham進一步說明,從4G轉型為5G網路的過程中,最大的不同在於5G提升了100倍的頻寬、200倍的密度與40倍的延遲速度,而這些效能亟需仰賴更多的雲端支援,也就是軟體定義網路(SDN)的技術,同時結合AI、深度學習、大規模多重輸入多重輸出(Massive MIMO)與可編程(Programmable)等技術能力予以支援,藉此滿足5G所需要的頻寬、網路速度與大連結效能。 而當5G應用需要更多的運算需求,CPU成長曲線也正逐漸趨緩當中,也有人說摩爾定律即將步入終點。Velayutham認為,網路速率以30倍的速度飛快成長,通用型運算處理的CPU已無法滿足需求,此時就需要GPU加速器的運算才能予以滿足。以NVIDIA來說,提供了軟硬體整合平台,其中結合GPU Cloud、高效能運算(HPC)、AI、視覺化(Visualization)等能力,超越摩爾定律的效能,並以每年1.5倍的指數級速度成長,預計2025年成長將達千倍以上。 當5G、AI與GPU的相遇會產生甚麼火花呢?時至今日,也有越來越多的電信商開始產生濃厚興趣,包含中國移動、AT&T、SK Telecom與Verizon皆有相關的布局。舉例來說,SK Telecom將目標放在智慧城市的應用,期能透過智慧影像分析(IVA)的方式保護公民與財產,實現這項能力背後須具備即時分析百萬台攝影機之數據的技術,須仰賴深度學習與強大的運算能力。基於此,SK Telecom採用NVIDIA GPU支援AI遠端影像監控應用服務(VSaaS),提升5倍的訓練速度,並透過TensorRT拓展推理引擎能力,使其在不犧牲精度的情況下兼具成本效益。 此外,Verizon則是希望了解設置於各地的基地台網路品質,期能藉由GPU的導入提升基地台網路分析能力並確保網路QoS。據了解,Verizon使用NVIDIA GPU將傳統基於ML-ARIMA演算法升級於DL-LSTM,從而提升網路分析精度並縮短分析時間,將過去需要一整天分析的時間,所短成一小時內完成。 Velayutham強調,NVIDIA與內容供應商、行動設備,以及各類型消費性電子商合作,在此基礎下,已清楚了解各種應用所面臨的困境與挑戰,扮演串聯上中下游5G相關產業與應用的關鍵角色,預計將能更加深入的協助電信商克服5G挑戰,加速其5G相關建設的布署。
0

從集中到分散的AIoT運算 邊緣運算優化深度學習網路

AI人工智慧的浪潮一波波襲來,帶動雲端儲存、大數據分析等新商機崛起,但隨著更大量、即時的資料吞吐量,傳統雲端架構已逐漸無法負荷如此龐大的運算需求。邊緣運算(Edge Computing)有助於降低傳統雲端架構的運算負荷、提升邊緣端的數據與資料處理能力,大幅改善運算效率以及數據應用。根據研究機構預估,2018~2022年全球邊緣運算相關市場規模的年複合成長率將超過30%,吸引許多廠商競相投入布局。 與雲端運算相較,邊緣運算更加無所不在,不僅應用領域廣泛,產業投資較小,也與台灣產業型態更加契合,邊緣運算將因為物聯網(IoT)蓬勃發展,扮演更明確、更高價值的角色,該技術可以處理複雜的工作,也可以負擔簡化的運算,端視它配置的運算資源和分析軟體,如果邊緣裝置無法立即處理,還是可以透過雲端來接手。本次活動邀請相關技術領域的研究單位與廠商擔任講師,剖析邊緣運算架構、專用加速硬體、產業發展趨勢與應用前景。 從集中到分散式的運算結構 物聯網發展與成長迅速,相關裝置更是高度成長,產業研究機構資策會MIC研究指出,全球具自主反應功能的IoT主動式裝置(Active Device)在2015年時共有129億個,其後一路成長至2020年將突破212億個,2025年時預計進一步成長至342億個。資策會MIC資深產業分析師兼專案經理施柏榮(圖1)說,以具備IoT功能來加以區分,預計2021年,具有IoT功能的主動式裝置已達50%,2025年預計達到62%,顯示全球有愈來愈多的裝置具備數據感測、資料蒐集、資料互聯的功能。 圖1 資策會MIC資深產業分析師兼專案經理施柏榮說,邊緣運算發展之下,AIoT裝置將具備數據感測、資料蒐集、資料互聯的功能。 再者,全球主動式IoT裝置數量2015年,約有28億個,2019年為IoT裝置數量首次超過全球人口總數的年份,2020年更將挑戰100億個大關,2025年則預計達到215億個,是2020年的兩倍之多(圖2)。施柏榮認為,全球人均IoT數量(全球平均每人所擁有的IoT裝置),2020年為1.3個、2025年將達2.69個,意味著當年全球每人將有近三個能夠蒐集環境數據的裝置或設備,與人類的日常生活更加密不可分。 圖2 全球人口與主動式IoT裝置數量發展趨勢 資料來源:資策會MIC整理(12/2018) 物聯網的發展將產生資料的洪流,數據的處理與使用成為未來幾年亟需解決的問題,施柏榮指出,終端設備所處的位置,將產生不同類型的數據使用情境。而邊緣人工智慧(Edge AI)是在物聯網邊緣位置上,執行機器學習推論(ML Inference)並處理來自終端的數據與資訊的運算服務,達到降低雲端負載、終端立即回應的效果。 邊緣運算的重點在調整過去雲端運算的集中式(Centralized)結構,轉變為以分散式(Distributed)運算為核心,賦予近終端的節點,也可以進行運算、分析、決策等功能,施柏榮強調,除了解決網路壅塞,資料處理延遲等問題,邊緣運算並非是要取代雲端運算的功能,而是重新定義、優化雲的架構。Edge AI的運作在Cloud、Edge、Thing之間皆產生非常緊密的交換與連繫,彈性化架構是運作的重點。 邊霧運算強化雲端彈性 若以技術發展的角度來觀察,邊際情境智慧(Edge Intelligence via Ambient Computing),定義上就是遠離雲端而靠近面對消費者的裝置那一端,須具備一定的運算與智慧產生能力,能就近處理感測所產生的資料。資策會物聯應用系統中心副主任王秉豐表示,既有雲端架構無法滿足物聯網離線處理、資料隱私、即時回應等需求,導入邊霧運算架構可解決雲端運算面臨的問題,增加使用彈性,解決不同系統間資源共享與再利用的需求。 邊霧運算的技術架構有幾個特色,包括:多樣性與異質性的挑戰,可以通過服務和設備的抽象層來解決;應用程序和資源管理緊密合作,提供複雜的互聯網服務,並自適應地分配邊緣/霧端資源;邊緣資源註冊、識別和控制介面,將是改善網路和服務可擴展性的方法。 而邊霧系統架構未來幾年的發展將遭遇挑戰,王秉豐說明,包括可擴展性(Scalability)、複雜的互連網(Complex Inter-networking)、動態和適應(Dynamics and Adaptation)、多樣性與異構性(Diversity and Heterogeneity)等,邊霧運算將建構更彈性化的IaaS基礎架構,改變既有數據傳輸、儲存模式甚至網路運算計價模式。 邊緣運算應用多樣廣泛 而從應用的角度來觀察,AI將深入各行各業、各個角落,根據產業研究機構資策會MIC研究指出,AI將成為基盤性技術,全球人工智慧的科技支出,2016年約為4.5億美元,但預計於2020年達到192.8億美元、2021年更將突破達到289.6億美元,顯示全球公私領域皆將人工智慧視為科技研發投入的重點,並將逐漸導入應用以強化自身競爭力。 資策會董一志提到,AI應用無遠弗屆,穿戴式裝置就是典型的邊緣裝置,智慧手環與手表的功能有:健身計步、睡眠偵測、心律測量、精準定位等,隨著消費者需求的成長,最新的Apple Watch已經導入跌倒偵測,類似的個人健康與保健功能將持續出現在各式智慧穿戴裝置,並結合更多AI邊緣運算的技術,達成隱私、即時與智慧化的需求。 邊緣運算專用晶片引發卡位戰 AI的熱潮在過去幾年帶動雲端運算的高度成長,同時也帶動資料中心用的記憶體、處理器(High Performance Computing)、高頻寬傳輸介面等的發展,而方興未艾的邊緣運算,也促使晶片廠商大舉投入相關的專用加速硬體的開發,安馳科技專案副理謝秉志(圖3)表示,嵌入式的機器學習(Machine Learning)解決方案有幾個特性,透過軟/硬體可配置特性因應快速變化的深度學習網路,而且可以針對高效能與低功耗彈性調整,支援深度學習網路任意精度的調整,並以即時運算創造低延遲,在不同的應用上可以彈性的進行差異化。 圖3 安馳科技專案副理謝秉志指出,使用深度壓縮(Deep Compression)工具可以有效提升深度學習網路的效率,改善效能。 可編程元件一向以彈性化的配置見長,在AI應用上,依然延續這類特點,而為了節省運算資源,可以支援最小1bit的資料寬度INT 1運算,跟32位元的運算比起來,可以大幅節省硬體資源。而在深度學習網路中,剪枝(Pruning)也成為邊緣運算的發展重點,透過演算法簡化網路的複雜度,將影響學習準確性較小的節點刪除,讓深度學習網路模型可以被裁剪為結構精簡的模型,且網路修剪前與修剪後維持相似效率。 使用深度壓縮(Deep Compression)工具可以有效提升深度學習網路的效率,謝秉志進一步說明,深度學習網路整體效能將獲得改善,大致說來,可將網路節點縮減成1/3,資料傳輸的頻寬需求剩下1/10,網路模型規模剩下1/10,運算效能提升3倍。 而目前在AI領域領先的GPU大廠NVIDIA,同樣看好邊緣運算的發展,也提出轉移式學習(Transfer Learning)工具,該公司技術行銷經理蘇家興(圖4)指出,這是一個將整體網路優化的工具,流程上是先提出已訓練過的模型,加入新的資料,透過轉移式學習的流程,包括剪枝、場景改編(Scene Adaptation)、重新編碼,最後可以產生一個高精度符合應用場景的模型。網路剪枝不是只有縮減模型的複雜度,而是優化整個深度學習網路,經過轉移式學習流程後,模型可縮小6.5倍,但網路效率可以提升2倍。 圖4 NVIDIA技術行銷經理蘇家興說明,網路剪枝不是只有縮減模型的複雜度,而是優化整個深度學習網路,縮小模型並提升網路效率。 深度學習優化有撇步 目前網路上開放共享的深度學習網路模型很多,如何利用別人已經訓練好的模型來達成自己的目標,逢甲大學電子工程系副教授陳冠宏(圖5)建議,可以先看這些模型跟自己的訓練目標有沒有一致,如果差距不大就可以透過剪枝、截斷(Truncation)、權重分類(Quantization)這些方法,加入自身的情境,讓這些網路經過壓縮之後,可以更加符合自身的應用情境,節省訓練的步驟。若是這些訓練好的模型分類與應用不符,則深度學習網路模型就需要重新訓練。 圖5 逢甲大學電子工程系副教授陳冠宏建議,透過剪枝、截斷(Truncation)、權重分類(Quantization)可以讓AI訓練更有效率。 AI的訓練與推論耗費許多運算資源,因此將AI放在邊緣如何提升效能,且不犧牲太多準確率,成為邊緣運算的發展重心,陳冠宏認為,模型壓縮、高平行性(High...
0

第一屆MATLAB深度學習競賽參賽隊伍逾90組

AI人工智慧科技百花齊放,無人科技應用正熱門。為培養台灣人工智慧技術人才,美國工程軟體研發大廠MathWorks公司與其在台灣業務總代理鈦思科技特別舉辦「第一屆MATLAB深度學習競賽」,並與國內研究機構權威工業技術研究院合作,以無人商店自動結帳系統作為應用主題,利用MATLAB的深度學習技術,以實際之企業應用作為實戰練習題目,鼓勵及提升國內人工智慧技術人才的培育。競賽總獎金新台幣二十萬元,開放報名至今已有超過90組團隊報名參加,參加人數超過200人。 無人零售商店國內業者都在積極搶攻,然而如何避免無人商店淪為口號噱頭,準確、快速辨識的結帳系統,以及利用AI科技增進消費在店內愉悅的購物經驗是最大的技術關鍵。在現階段,深度學習技術被廣泛視為處理辨識任務最有效的方法,它以類似人類深層神經網路(Deep Neural Network)的架構為基礎,來訓練和分析資料特徵,以讓機器學習如何自動辨識與分類。 MathWorks公司與鈦思科技主辦『MATLAB深度學習競賽』將模擬無人商店結帳系統的情境,參賽者將須開發相機中的辨識演算法,辨識零售商店常見的105項指定商品,由主辦方驗證辨識準確率,準確率最高者為優勝。
0

產業需求紛湧現 AI鋒頭銳不可擋

從網路上可看到一則小故事,晉朝時有一位叫王質的樵夫,有一天他到信安郡的石室山(今浙江衢縣)去打柴。看到一童一叟在溪邊大石上下圍棋,於是把砍柴用的斧子放在溪邊地上,駐足觀看。看了多時,童子說:「你該回家了。」王質起身去拿斧子時,一看斧柄已經腐朽了,磨得鋒利的斧頭也鏽得凹凸不平了。王質感到非常奇怪,回到家裡後,發現家鄉已經大變樣。無人認得他。提起的事,有幾位老者都說是幾百年前的事了。原來,王質誤入仙境,遇到了神仙,仙界一日,人間已百年。 這個故事本來是說凡人的壽命短暫,需要多做好事修煉成仙,才能達到世人渴望長生不死的願望。不過換個角度想,圍棋這種遊戲讓連神仙來下也要思考這麼久,可見得圍棋是多麼難的一種遊戲。網路上還說到北宋科學家沈括在「夢溪筆談」中曾粗略估算過棋局的變數,稱「盡三百六十一路,大約連書萬字四十三,即是局之大數」,也就是指3的361次方,這實在是一個天文數字。 這是什麼一個概念,天上的星星總數大約是10的23次方,而3的361次方相當於10的170次方再乘上2,這可是比天上星星的總數後面還要乘上好幾百個零的倍數。所以說圍棋要下得好,不僅僅要會算,還要有策略,更需要有大局觀的視野。就是因為圍棋這麼難,所以電腦棋藝遊戲裡,圍棋這種遊戲很難達到高手的境界,不是棋藝太差,就是速度太慢,但AlphaGo的橫空出世,改變了電腦在整個圍棋遊戲的地位。 AlphaGo展露深度學習效能震驚圍棋界 在圍棋上AlphaGo用三個步驟贏遍人類,第一步驟是規則學習(Policy Network),學習人類所有頂尖的棋譜,用以模仿高手的招式。第二步驟是招數學習(Value Network),評估所有招數優劣,用以判斷不同招數在這個棋局的獲勝機率,第三步驟是布局學習(Tree Search),用來分析棋局的各種可能變化,並推演棋局未來的可能演變,用以決定落子的位置。 AlphaGo這個做法可說是第一次讓電腦模擬人類神經網路(Neural Network),並用深度學習(Deep Learning)的方法來學習下棋的頂尖招數,這個做法就好像武俠小說中的東方不敗,學會了葵花寶典的武功,成為了天下第一的武林高手。不過進一步的想,東方不敗只是一時的高手,卻不能列為頂尖的武林宗師,原因就是他的武功是學來的而不是自己創的。 AlphaGo的強大也是看人類棋譜深度學習的結果,如果棋譜有錯,它也會出錯,如果人類故意輸入錯誤的棋譜,它就會錯得離譜。而且AlphaGo雖然下棋厲害,但除了下棋,其他都不會,只能算初級的人工智慧不會威脅到一般人的生活。但是,開發AlphaGo的DeepMind團隊,緊接著推出AlphaGo Zero,那可不是同一個技術水平的創作。 原本的AlphaGo事先需要人工輸入大量的資料來學習,就像有些模擬人類神經網路的電腦如果要來判斷圖片中那些是貓那些是狗,需要匯入大量的圖片,並且需要人工事先定義圖片內容再輸入關鍵字,萬一將獅子Key成貓,電腦就埋下Bug種子,而且這種工作量實在太大了,變成了勞力密集工作,讓人感覺這種人工智慧(Artificial Intelligence, AI)有點Low。 AlphaGo Zero採用機器自我學習(Machine Learning)的方式來開發下棋應對方式與布局招數,只要講好遊戲的規則,它可以自我模擬對弈,以電子的速度短時間內自我對戰5,000萬次並學習出最佳的策略,進而開創出人類無法想像的對應招數與布局方式。DeepMind團隊在網路上化名試著與人類60位圍棋高手下棋,AI完勝人類。 到了後來,再拿新的AlphaGo Zero與原本的AlphaGo對奕,結果100:0,打得曾經戰勝人類棋王李世乭的AlphaGo毫無招架之力,到這個時候,AlphaGo Zero的棋奕能力與人類的差距,就好像猴子看不懂人下什麼棋一樣,AlphaGo Zero棋力已經自我演化到人類無法想像的境界了。 AI應用紛問世 監控領域為大宗 以模擬人類神經網路來深度學習(Deep Learning),再加上機器自我學習,這就是進階的AI人工智慧。目前一般市場上所說的AI,大都是指這種有自我學習能力的人工智能,而這樣的技術已經不只是用在下圍棋這件事上。 在2018年Google I/O的盛會上,Google就發表了幾個AI運用的例子,一個有意思的技術是關於如何利用AI在影片中將雜亂的「吵架聲」區分開來。這個技術如果用在通話,那麼不論講話的人在吵雜的工廠內還是喧鬧的演唱會上,雙方都可以聽到對方乾淨的聲音。 如果用在監控領域裡,那麼可以隨意點選錄影檔中講話的人物,不論當時錄影的背環境多麼喧譁嘈雜,都可進一步還原並聽清楚講話的內容,這對警方辦案將會是一個偉大的助力。 另外,Google I/O還展現了利用AI人工智慧技術發展而來的語音助理,在Google所公布的影片中可以看到Google I/O利用新的連續對話(Continue Conversation)與多工回應(Multiple Action)技術,不但能記住你以前講話的內容,還能分析談話的邏輯與可能想表達的意思,就算要理解人類說話中不容易瞭解的複合句也不是問題,甚至Google I/O還能模擬人類說話的語調與心機策略,幫忙使用者與理髮店服務人員談判預約最佳的理髮時間,這個技術對於需要有大量客服人員服務的公司來說,無疑是未來服務模式的最佳選擇。 美國輝達公司(NVIDA)近期也發表了如何利用AI人工智慧,在錄影影片中補上新圖像的技術。只要給它一組24個連貫畫面,就可以在每個畫面間隔之間補上10個新的畫面,原本的24FPS影像,就變成了240FPS影像,在慢動作播放的時候看起來依然流暢。 同樣的AI人工智慧技術也用在低畫質影片的補強上,美國聯邦調查局(FBI)就經常使用AI人工智慧的影像補強技術來分析監視錄影系統所收錄到的影像,從中找到犯罪的線索,進一步協助辦案人員偵破犯罪的罪行。 在日本,東京都的警察機關(東京警視廳)2002年開始導入自動車牌辨識系統(ALPR),這個做法大幅度下降了原本居高不下的竊車問題,而現在最新的AI人工智慧技術,讓原本的ALPR系統除了辨識度更加準確以外,還增加了大數據分析功能,針對偵查鎖定的車輛不但能繪製出過去的行動軌跡,還能預測未來可能行經的路線,對於犯罪的偵防擁有莫大的幫助。 最近火紅的人臉辨識技術(Face Recognition)也是炙手可熱的話題,在很多影片中都可看到中國大陸的公安部門,例用人臉辨識技術抓到隱藏群眾之中的通緝要犯,甚至還可以在群眾之中找出以往帶頭鬧場的問題人員,事先壓制囂張的氣焰。在商業上,利用人臉辨識技術來做門禁管理,甚至是購物記帳、寄物領貨、提錢轉帳等,更是如過江之鯽不勝枚舉。 CPU效能大增驅動AI發展 其實模擬人類神經網路來深度學習的技術並不是新的發明,早在上個世紀,1960年代美國麻省理工學院電子工程與計算機科學教授Marvin Minsky就創立了人工智慧研究室,後來還因為在人工智慧領域的卓越貢獻,獲得電腦界最負盛名的獎項,有「電腦界諾貝爾獎」之稱的圖靈獎(ACM A.M....
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -