突破尺寸/功耗/效能天險　智慧推論晶片迎接新典範

首頁突破尺寸/功耗/效能天險　智慧推論晶片迎接新典範

- Advertisement -

未來消費性裝置創新，須仰賴創建更智慧的新型聯網裝置。此一未來，會由更多具有近端機器學習推論能力的知覺型感測器(Perceptive Sensor)所推動。運用這些感測器並同時擴大推論網路，將能推動智慧型裝置在幾乎所有方面的功能與使用者體驗的提升。隱私權亦可透過終端裝置本地推論的運行而獲得改善，因為只有最少量的使用者資料及感測器資訊會上傳至雲端。

機器學習被鎖在雲端

機器學習與智慧型裝置的交會解放了消費性電子產品新一波的創新。然而最佳的機器學習網路處理需求以及低功率處理器效能之間還有極大的差距。目前的解決方案是運用裝置收集並廣播感測器的資料至雲端，而高功率、專用的機器學習處理器則在雲端負責推論，並在完成後將結果透過網際網路回傳至使用者裝置。這個方法雖能提供機器學習的功能，但亦有極明顯的弱點。裝置有限的能量必須消耗一部分以保持持續的網路連線；雲端運算的延遲亦會限制了裝置對推論的應用，並且會破壞使用者體驗。而傳送原始資料的需求則讓裝置難以維護資料安全，並造成隱私權的顧慮。整體而言，這些限制了智慧裝置對機器學習的實際運用。

第一代的低功率機器學習處理器的整體容量與運算能力不足，只能專注在基本網路應用，如語音指令辨識，以及用於攝影機控制及客製化過濾的特徵偵測等。機器學習的核心邏輯絕大部分被減慢的摩爾定律所限制，因此若沒有效能上快速的改善，機器學習就必須維持在雲端。僅有在運算架構出現突破，方能創造出高效能、高正確度的近端推論。

本文意在展望複雜的推論網路可在幾乎任何消費型裝置上執行的未來─現在已極度接近。全新的「智慧型推論裝置」浪潮將會提供近端高效能的機器學習，讓敏感性的使用者資料不必上傳網路及雲端。其能自動化運用機器學習以改善低階裝置的功能以及使用者體驗。其將由快速創新、機器學習的同步處理、處理器設計、裝置設計所驅動，以創造全新的未來使用者體驗。

機器學習推論的突破

近期機器學習所克服的進階挑戰，揭露了新興智慧型推論裝置的絕佳前景。眾多團隊投身機器學習研究與學習/推論的程式碼庫，讓機器學習進入指數型的學習曲線。大部分的進展多與裝置的雲端連線能力或近端處理有關，針對處理較小資料集的研究則是純粹近端處理的最佳候選。裝置近期可以直接運用的創新包含：

・觀察手勢並處置實體世界物體

這項創新在兩個相關領域中已取得進展，可追蹤人類與機器人手臂，及教導機器人執行觸覺操縱。2019年，OpenAI透過在3D模擬中訓練的機器人展現出手指的靈活性，將其知識轉移至現實，並適應現實世界的物理現象。這創造出可以執行複雜任務的彈性，像是解開真實世界的魔術方塊，卻不需要真實世界的訓練。此外，2019年Oculus Quest亦發表了視覺感測器的手部追蹤技術，需要同時使用4具攝影機以進行6個自由度的頭部追蹤。該解決方案在Snapdragon 835處理器及3MB的神經網路架構，以500mW的耗能提供骨骼及數個手勢追蹤。此前非機器學習的解決方案必須使用景深攝影機及專用邏輯，並消耗超過15W的功率，卻僅能提供明顯較差的正確性。

・以現在的行動衡量未來結果

在Google的DeepMind中，強化學習經過修改而能了解賽局中決策的長期結果。Temporal Value Transport演算法則是用以將未來所得的結果通知現在，結合未來利益的機率於當前的行動中。這種結合未來結果於目前決策的能力能大幅改善機器學習系統在現實世界的決策制定，除可協助裝置進行更複雜決策的制定，還能大幅改善可執行任務的數量以及可應用狀況的複雜度。

智慧型推論裝置　開創全新體驗

運用推論協調裝置功能是未來裝置設計的強大典範。推論驅動的設計可以創造全新等級的使用者體驗，同時改善低階裝置的功能。具有多重網路推論的裝置將用以進行使用者與環境輸入訊號的複雜翻譯而不需要運用到雲端。使用多重同步網路能讓裝置對於使用者與環境輸入訊號有更高層的理解及反應。這些裝置受到影響的邏輯包含：

・智慧型推論裝置啟動

機器學習極適合翻譯聲音、手勢以及視覺輸入，以啟動裝置、節省電池電力並減少雲端資料傳送。

・雲端運用與資料隱私經衡量

裝置可以運用推論在雲端相關任務上，包含進一步推論，或是非推論的雲端計算。裝置可以在近端進行推論，而不需要提供原始資料至雲端。聲音、影像及感測器資料及其所產生的推論均不需要上傳。裝置可以決定哪些資料需要傳送至雲端，而該邏輯可以透過設計以強化隱私與資料安全性，而不需要因為必須在雲端處理而公開地揭露。

・推論驅動使用者體驗

在裝置靈活性、真實聲音翻譯及重製、導航、視覺、偵測、辨識等裝置功能的提供上，推論已證明具最佳的表現。推論可以直接用以創造全新使用者等級的功能與體驗，這些都是不具推論能力的裝置所無法提供的。可同時使用一組以上神經網路的處理器，具有能在裝置及使用者層級同時運用視覺、聲音及創新感測器輸入以制定複雜決策的能力。

啟動智慧型推論裝置

啟動感測器或連接至雲端都需要運算、耗電以及成本。若裝置能快速推論，一旦感測器的輸入需要後續對應動作時，處理器便能聰明地啟動、建立無線網路連線，而雲端的任務亦能明確地被指派。以此方式，低功率的推論便能透過把有趣的動作偵測、聲音啟動以及使用者意圖等留在裝置近端處理，節省整體裝置的耗電(圖1)。

智慧型啟動的重要性不應該被低估─裝置可以進入可接受的耗電範圍，而在許多應用中雲端服務可以避免雙位數的誤判。

・只有當任務短語和語調提出時，更聰明的啟動文字才會觸發裝置和雲端活動。

・在各種基於攝影鏡頭的應用中，智慧動作感測可預測動作的意向，以避免下游處理。

・智慧感測處理能減少一般功能處理器的負載，並運用機器學習來聰明地啟動裝置。

雲端運用與資料隱私經衡量

行動與社群應用帶來前所未有規模的運算與隱私挑戰。為雲端所設計的應用，可以把推論移轉至裝置，減少延遲並節省雲端資源。此外，如穿戴式裝置或智慧音箱等產品亦能決定近端、多因子排程以執行不同甚至是多重供應商的雲端服務。雲端雖然有極大的運算能力與資料量，不依賴網路連線的近端裝置則免於網路延遲與不可靠性。能正確在近端執行推論的裝置，因為能在近端分析聲音、影片、空間及其他感測器資料，僅需傳送較少的資料至雲端，能大幅改善機會來保護使用者隱私。

・機器學習從雲端轉移至近端裝置可以達成低延遲的使用者反應，能大幅改善聲音、攝影機、手勢等輸入的使用者體驗。

・近端的影片與聲音分析可以在近端執行，僅有在需要進行雲端分析時才將影片或聲音上傳，因而能保護敏感的使用者原始資料流。

・智慧型應用程式介面亦能讓單一智慧裝置對來自多個供應商的應用程式進行任務分派並進行雲端互動。

推論驅動使用者體驗優化

推論是讓裝置開啟尖端且全新使用者等級功能的核心性能。結合機器學習推論的聲音與視覺處理讓裝置能辨別複雜的指令與語境，而後產生絕佳的成果。可在新興智慧型推論裝置上擴展的功能，包含使用者回應功能像是生物辨識存取、環境回應、有意義的輸入以及衍伸的人類意圖。此外，還包含替身模擬、機器人控制、智慧型感測器控制及導航等功能(圖2)。

智慧型推論裝置機器處理器的期待屬性

能協調智慧型裝置功能的處理器，將運用機器學習技術，同時包含與裝置感測器、核心處理以及功率控制的關鍵介面。其將成為裝置的大腦，以啟動裝置的功能並調配關鍵的處理。理論上，其能提供實用的功能讓裝置因為減少耗能、必要時智慧化啟動裝置功能、確保其能依安排的需求而啟動，而成為更好的產品。在此同時，其能高效率正確地處理複雜的網路，體積又能更小─讓其可以置入體積精巧的平價裝置。

未來智慧型裝置的關鍵考量是其在感測器與耗能之間的關係。許多裝置需要延長電池使用時間。現今，複雜的視覺感測器資料分析會以最大Thermal Design Power(TDP)的狀況下消耗所有的運算資源。智慧型感測器僅有在必要時會啟動處理、無線網路、雲端互動及實體功能。智慧型感測器與裝置功率的減少是加速智慧家庭採用的必要項目。智慧化啟動網路運作及雲端互動可以減少裝置耗能、延長運作時間、增加尖端功能所能保留的電力預算。家用配線是長期的限制，需要許多裝置以電池運作，以增加消費者的採用。現今電池運作的智慧型家用裝置通常使用4個以內的AA電池或是3500mAh的充電電池，而目標運作時間則在3個月以上。運用智慧型感測器，僅在必要時才啟動裝置，在近端處理輸入而不需要無線網路的連線，可以顯著增加其功能，並減少對於電力的需求。

最佳化的效能、架構、軟體、功率以及研發平台的匯集，對於推論成為未來智慧型裝置設計的驅動因素是全部必要的條件。最佳化的推論處理器將在這些屬性上同時擁有優異的表現。

效能

・高機器學習網路效能/瓦特：能執行高正確性、現代的影片/影像/聲音處理類型網路。

・一致的加速度：即便在網路程式碼改變，並擴大多重網路類型，仍能提供相對一致的加速度。

架構

・整合式設計：小尺寸及高度整合，以簡化設計。

・標準匯流排：使用標準介面與匯流排設計，易於整合至裝置。

・多重感測器輸入/輸出介面：支援影片、聲音、常見及新興的感測器。

・可擴充性：在相同的程式碼下，設計架構能擴展至多重ASIC或是更大、更高性能的ASIC。

・低延遲：整合記憶體架構及快取，以快速處理所擷取的資料，包含聲音及高解析度/多重攝影機影像等。

軟體

・快速載入：快速並動態載入，同時執行多重機器學習網路。

・不特定機器學習網路：執行任何神經網路型式或是分層類型。

・執行及相關多重機器學習處理：運作多重網路並執行橫跨多重推論的分析。

・一般目的運作：執行程式碼以產生完整形成與裝置運作相關的成果。

電力

・低TDP：支援電池電力以延長穿戴式裝置及離線操作的使用時間。

・低熱度限制：低熱度適合支援穿戴式裝置及全被動式運作。

・快速啟動：由使用者或感測器呼叫可快速、低延遲的啟動加速器，適合底層以低於使用者感知等級的運用。

・選擇性啟動：命令和控制感測器啟動，支援額外處理，協助裝置平均耗能最小化。

平台

・強力的SDK及說明文件：軟體工具集，搭配第三方工具的支援，使其易於運用於目標的加速器中。

・最佳化的預製：針對主要應用的功能區塊，如偵測、分類、除噪等，提供直接替代(Drop-in)的支援。

・部署工具集：來自主要機器學習平台如MXNet、PyTorch、Caffe及TensorFlow的移植工具等強力支援。

兼顧尺寸/功耗/效能　全新推論處理器登場

新創公司Perceive發表全新的Ergo，是款高度整合的推論處理器，能將所有推論處理卸載至低功率應用及小尺寸裝置。Ergo能以相當於55 TOPS/W的性能執行推論，而在全功率運轉時可以達到4 TOPS，而不會犧牲正確性，或限制可支援網路的類型。Ergo ASIC採用7×7mm FBGA封裝並能以約20mW耗能處理許多網路，最大功率約為120mW，且完全採用被動式散熱。在現場展示中，Ergo在全速運轉之下溫度仍低得可以直接碰觸。

Ergo是設計來執行傳統上僅能在資料中心等級推論處理器上方能運作的網路。現今Ergo可以完整執行YOLOv3，在批量尺寸為1時以246fps處理6400萬組參數。Ergo可以執行傳統上需要超過400MB儲存空間且有超過1億組參數的網路。

與之前設定為低耗電應用的推論處理器相比，Ergo計畫並達成所有之前的處理器及專用加速器擁有相當的每瓦特效能的20倍至100倍的功率效能。現今的推論處理器一般低於5 TOPS/W，而Ergo則可以達到55 TOPS/W以上。

要達成這樣的效能，Perceive發展出全新的運算架構，能維持高正確性，但大幅減少記憶體與耗電量的要求。Ergo新穎的網路表示法(Representation)避開推論對於MAC陣列的需求，並因而精巧至足以在晶片內記憶體執行大型網路。Ergo晶片亦採用積極性功率與時脈閘以增加電源效率。因此，Ergo能在7mm×7mm的封裝內提供極高的正確性。結合了源自數學原理的方法至機器學習、不是依據MAC而設計的架構、沒有外部記憶體、傳統的節電技術，是讓Ergo可以在資料中心等級網路上提供高正確性、效能與效率的原因。

廣泛的移植網路和一致的效能提升，代表該公司已成功創造一種能提供相對於今日推論負載明顯效能改善的架構。此外，該公司亦已展示許多多重網路應用，均與其宣稱的網路容量及性能相符。

Perceive Ergo能直接串接高解析度、高影格率影片感測器，讓多重感測器與即時元資料(Metadata)有機會作為推論處理的額外輸入。此能提供先進的問題解決與多重網路推論，讓其能運用於核心裝置控制與先進的終端使用者功能。有了高效能與網路容量，亦可能推出全新的功能。在此機會之下，軟體設計與訓練出現新的挑戰，對裝置生產廠商成為全新的技術挑戰。Perceive已試著透過工具套件(其中含有針對一般機器學習應用的已可用於部署Ready-to-deploy網路)，讓研發更為容易。

Perceive Ergo機器學習網路範例

Perceive Ergo可同時執行多個網路，讓智慧型裝置能採用推論驅動設計。其已使用現今多層次網路如CNN(包含殘差邊緣)、LSTM、RNN及其他網路進行測試。示範的網路包含：

以M2Det進行多重物件偵測

多重層次多重尺度偵測器(M2Det)是新發表的類神經網路(2019年1月)，用以進行物件偵測及在地化，設計以偵測尺度差異極大的物件。M2Det是款端到端、單一拍攝物件偵測器，其在現實世界應用極為實用，因為物件可以是在漸進場景中且尺寸及比例差異極大。

以YOLOv3進行多重物件偵測

YOLO是由Joseph Redmon及Ali Farhadi所創造的CNN式類神經網路，可以在影像及影片中辨識並定位高達80個物件類型。現今YOLOv3是資料中心最受歡迎的多重物件偵測器之一。

以專用網路進行聲音事件偵測

最佳化的類神經網路可以以小尺寸的類神經網路辨別多重聲音事件類別，讓其極適合運用搭配較大的視覺處理類神經網路使用。

以ResNet進行臉部辨識

深度殘差學習因較易訓練與絕佳的正確性而受到關注，其為微軟研究院(Microsoft Research)在2015年所發表。多重層次配置的ResNet已運用於大型樣本地區臉部與影像辨識。

Perceive Ergo同步推論類神經網路範例

Perceive Ergo已示範結合這些類神經網路運作，並且以其自身的記憶體/網路權重能力在技術上是足以同時執行多重類神經網路。此處理器能執行全新類神經網路的組合，處理使用內建輸入/輸出埠自多重偵測器所取得的資料。

Perceive Ergo複雜多重物件類型視覺偵測與辨識

Perceive Ergo已示範同時執行M2Det、專用面部特徵偵測以及Resnet28臉部辨識，以自高解析度影片源同時偵測物件並辨識人員。該示範執行M2Det(7,300萬組權重)、一組臉部特徵偵測專用類神經網路(50萬組權重)以及Resnet28臉部辨識(1100組權重)。結合視覺推論可以理解並驅動互動與複雜的決策樹。

Perceive Ergo同步聲音及影片推論示範

在此示範中(圖3)，兩種類型的類神經網路同時執行。多重物件影片偵測使用M2Det、使用7,300萬組權重以偵測五種類別：人員、臉孔、動物、包含以及車輛(未在圖中)。聲音事件偵測則使用專用類神經網路，使用70萬級權重偵測三種類別：人員說話、煙霧警報(未在圖中)、二氧化碳警報(未在圖中)。同時結合視覺與聲音推論可以運用以同時提供使用者介面及被動警示，並有視覺化環境資訊。

圖3 在現場示範中，Perceive Ergo同步執行聲音與視覺推論，以M2Det自影片輸入中偵測5種類別，而以專用類神經網路偵測3種聲音類別，其推論耗能約20mW

全新更聰明的物聯網

更聰明裝置協助日常生活的潛力將會因為訓練與推論的精進而解放。請試想日常應用種類的廣泛，而特定裝置在設計前瞻產品發展計畫時會極具威力(表1)。

打造實際有用、不可或缺的裝置，事實上是極難達成的。現今的物聯網依賴裝置維持持續連線以在雲端進行推論服務。這個複雜的架構讓推論的應用變得昂貴而且耗能。連線的裝置面臨包含正確性、電力、複雜度、成本、處理效能、網路連線要求、使用者介面設計等等問題的挑戰。可能便是因為這些原因，讓物聯網的預期快速成長又消退，因為消費者仍大多數居住在沒有連線的住家、大部份忽視可穿戴式科技，並擔心個人隱私在網際網路上失去保護。

近端推論可能可以在足夠的面向改善裝置功能，推動物聯網回到焦點。能正確在近端進行推論的智慧型裝置將能快速改善基礎裝置運作，同時擴大功能並增加使用者隱私保護。推論主導的設計可以簡化裝置的邏輯，並在保持雲端在基本運作之外的狀況下，有效改善關鍵功能如使用者介面的可靠性，並大幅改善不需連線的功能及各種基本標準。這些被稱為人工智慧物聯網，然而目前技術距離人工智慧還有相當距離，而物聯網亦已面臨過多的炒作。打造更好的裝置需要實用主義，而且較少的過度銷售、更多的實際交貨才能有利於發展。僅僅是能提供先進推論能力的更聰明裝置便能在更小、更省電的裝置上帶來足夠可靠的能力，能贏來更多消費者的信任，並確立消費性電子裝置的角色。

智慧型裝置的知覺

將推論移出雲端，裝進日常裝置，將能在消費性電子產品中開創令人興奮的創新機會。近端推論可以安排裝置的啟動、雲端運用、多重同步類神經網路，以提供全新更有價值的使用者體驗。

Perceive Ergo是第一款將新興的同級最佳機器學習研究，讓智慧型裝置可以運用的處理器。透過直接與感測器連結，在不需要CPU進行調配的狀況下，高傳真輸入的資料可以極低的耗電被解譯。以此，推論處理可以用來開啟對於智慧型裝置的其他運算、電子及電機功能進行複雜的任務分派。這套全新的解決方案架構─推論驅動設計─對於裝置生產廠商而言是全新的挑戰，其將提供令人驚豔的機器學習能量以驅動原本是在數年之後計畫的功能提前落實。雖然挑戰極大，但是創造首波智慧型推論裝置的機會亦是最具破壞力，亦是現今消費性電子產業中最令人興奮的機會。

(本文作者為TIRIAS Research資深媒體/XR產業分析師)

前一篇疫情增添廠商來台變數　COMPUTEX首度取消

下一篇電感器材料/設計/氣隙計算慎行　車載充電器耗損降效率增