- Advertisement -
首頁 標籤 TOPS

TOPS

- Advertisment -

開放不等於免費 CPU客製化必須穩紮穩打

為滿足人工智慧(AI)、物聯網(IoT)、邊緣運算等應用對運算效能的需求,許多晶片供應商都開始探索使用客製化CPU的可能性,盼藉由專為執行某些特定運算任務所設計的指令集跟執行邏輯,來提高運算效能。但魚與熊掌往往難以兼得,這些專為某類運算任務設計的特殊CPU,必然會犧牲其泛用性,與現有應用軟體的相容性問題,也必須審慎應對。 大廠導入RISC-V 小心翼翼試水溫 因此,即便RISC-V這類開放架構CPU廣受業界矚目,採用RISC-V核心的SoC或處理器設計案例數量也快速成長,但若更深入研究RISC-V在這些SoC或處理器中所扮演的角色,就會發現目前RISC-V的應用領域,還是高度集中在不太需要顧慮第三方軟體相容性的範疇。 舉例來說,繪圖晶片(GPU)大廠NVIDIA的GPU晶片內,除了負責執行圖形運算的各種著色器(Shader)之外,還有許多晶片內部的控制跟協調作業需求,必須靠嵌入式CPU來執行。為此,NVIDIA早在十多年前就開始自行發展RISC指令集,並以此設計出自家專用的嵌入式CPU,負責GPU內部的管理跟控制任務。 但經過十多年後,NVIDIA內部的研發團隊認為,已經很難再靠改良現有指令集架構的方法來滿足新的需求,因此,該公司決定發展全新架構,以提供更高的性能。具體來說,新一代嵌入式CPU至少要提供比現有CPU高一倍的效能、支援64位元記憶體定址、快取與高速記憶體等。 經過評估之後,NVIDIA發現,目前市場上的主流CPU核心,還是沒辦法滿足其需求,所以又走回了自行開發的老路。不過,與十多年前NVIDIA必須自己從指令集架構開始發展的情況不同,這次NVIDIA可以用RISC-V指令集架構作為設計起點,來開發新一代CPU,取代已經使用十多年的老CPU。 2016年時,NVIDIA先採用柏克萊大學發展出來的RISC-V處理器Rocket,開發出第一代基於RISC-V的Falcon控制器,在9項客製CPU設計要求中,已能符合7項功能規格。到了2017年,NVIDIA改用自己設計的RISC-V處理器版本,發展出第二代Falcon控制器。 第二代Falcon控制器使用了64位元RISC-V指令集來設計,並根據自身需求,決定需要使用哪些指令,也加入自己的專用指令集,來對CPU設計進行最佳化。第二代Falcon不只滿足所有技術需求,而且效能更好,也幫助他們降低成本,就是因為採用開源設計。 三星電子(Samsung)採用RISC-V的情況也類似。三星早在2017年就已經開發出第一款內建RISC-V核心的晶片,經過三年多的設計迭代,該公司在2019年的RISC-V高峰會上,正式發表了第一款內建SiFive RISC-V核心的5G毫米波前端模組,接下來三星還有意在AI影像感測器、安全管理晶片與AI運算控制器等晶片中導入RISC-V。在5G毫米波前端這款解決方案中,RISC-V核心負責的任務是訊號處理,而非標準CPU所擅長的控制任務。這顯示RISC-V在某種程度上,可以靠著DSP延伸指令集這項擴充能力,取代某些原本要靠數位訊號處理器(DSP)實現的應用。雖然三星並未揭露未來RISC-V在影像感測器中所扮演的角色,但考量到影像感測器就跟5G射頻前端一樣,會有大量的訊號處理任務需求,可以合理推論,RISC-V應該會扮演某種接近DSP的角色。 除了在處理器、SoC內部扮演微控制器或訊號處理器的角色外,儲存相關應用採用RISC-V的速度也相當快。除了威騰(Western Digital, WD)對RISC-V全力相挺,發展出三款基於RISC-V指令集的核心(表1),主要應用在NAND Flash控制器上之外,晶心科技技術長蘇泓萌透露,台灣某SSD控制器大廠的控制器晶片,也已經內建晶心提供的RISC-V核心。 從NVIDIA、三星,以及威騰等NAND Flash控制器的實際應用案例,不難看出這兩家大廠導入RISC-V的過程,是經過深思熟慮的。不管是GPU內部的控制任務,或是5G毫米波前端,其運作所涉及的軟體都是韌體,晶片開發者對此有完全的掌控能力。也因為晶片開發商可以一手掌控,不太需要考慮第三方軟體、應用在客製化CPU上執行的相容問題,所以晶片開發商可以大膽採用自己客製化發展的CPU硬體架構,以功率、效能與晶片面積(Power, Performance, Area)的極致最佳化為設計目標。 在通用處理器或主處理器方面,目前真的採用RISC-V的知名案例並不多見,僅阿里巴巴旗下平頭哥半導體所發表的玄鐵910,是基於RISC-V指令集架構所開發出來的通用處理器。對RISC-V陣營來說,玄鐵910的問世,固然有其里程碑的意義,但從玄鐵910的規格跟性能測試結果來看,跟Arm及x86陣營相比,還是有一段明顯的差距,在軟體、開發工具支援方面,要跟Arm、x86相比,也還有一段不小的距離。 指令集客製不難 難在維繫生態系完整 面對AI、IoT應用開枝散葉,相關應用開發快速且項目多元,標榜使用者可以自行客製化設計的RISC-V乘著這波風潮,在市場上來勢洶洶,作為嵌入式處理器IP龍頭的Arm,又如何看待? Arm應用工程總監徐達勇(圖1)表示,AI、IoT應用無所不在,確實導致市場上出現許多標準CPU指令集不容易照顧到的新應用、新需求。這些新應用很符合商學教科書上所提到的「長尾理論」--個別應用的市場規模或許不大,但累積起來也是一個相當可觀的市場。對Arm來說,如何滿足這類應用的需求,自然是一個必須思考的問題,而Arm所提出的回應,就是在標準指令集之外,開放晶片開發者在共通的框架、格式規定下,進行客製化的指令集定義。 圖1 Arm應用工程總監徐達勇 事實上,客製化指令集在技術層面並不困難,但Arm直到2019年10月才推出Arm Custom Instruction(ACI),是因為有許多技術以外的考量。例如CPU硬體加上客製化指令之後,編譯器(Compiler)、除錯工具(Debugger)等開發工具,以及處理器上執行的軟體等生態系統的配套,能不能支援開發者自己定義的客製化指令,就是一個大問題。客製化指令立意雖好,但實際上使用者/客戶並不多,而且大多是有雄厚研發資源的大廠,因為客戶必須要有定義指令的能力,並自行克服軟體破碎的問題。 經過審慎思考後,Arm決定在其現有架構中,開放部分客製化指令集,滿足客戶彈性修改CPU指令集設計的需求,但客製化必須符合Arm預先定義好的規範,以避免編譯器、除錯工具無法理解這些開發者自訂義的指令。Arm認為,這是兼顧設計者需求與生態系完整的兩全對策。 SSD控制器便是一個對客製化指令需求很高的應用,因為SSD控制器所做的工作重複性很高,但這些工作卻往往得用到許多條標準指令才能完成,導致CPU經常耗費大量資源在抓取指令(Fetch)上。若能將常用的多條指令整合成一條客製化指令,如圖2,便能加快記憶體存取、編譯與寫入的速度,不只能減少指令執行時所占用的記憶體,也能進一步縮小晶片的尺寸、降低功耗。這是客製化指令對某些客戶非常有吸引力的主要原因之一。 圖2 客製化指令集的基本概念與優劣勢 但客製化之後的指令,必須確保編譯器或除錯工具的夠解譯,否則後面的應用產品開發將無法繼續進行下去。為了避免這種情況發生,相關工具配套必須先到位,或是晶片設計者必須自行備妥這些工具。 天底下沒有白吃的午餐,雖然開源常被跟免費畫上等號,但開源絕不等於免費。光是一套完善、成熟的開發工具,就需要投入大量人力進行研發跟維護,這很難是完全免費的。此外,即便是使用RISC-V這類開源架構設計晶片,仍會有工程開發成本,並且承擔市場風險。如果進行成本精算,開發者的總成本不一定會比取得現成的IP授權來得低。 大廠競相投入RISC-V 背後有其戰略用意 SiFive總裁暨執行長Naveed Sherwani對最近幾年RISC-V廣獲業界矚目,聲勢一路看漲的現象,也有一番值得思考見解。他認為,就技術層面來說,RISC-V的自由與彈性,確實是讓不少大廠對RISC-V產生興趣的原因。但RISC-V能有今天一片欣欣向榮的景象,連帶讓SiFive在短短幾年內就累積超過350個設計定案(Tape Out)的實績,且委託客戶不乏一線科技大廠,關鍵還是在每家廠商想要有與眾不同的產品。 標準CPU還是有其存在的價值,不會所有人都需要客製化的CPU,但如果是對自家產品有長遠發展規畫的大廠,最後一定會考慮在CPU裡面添加自訂義的元素,因為這會讓終端產品出現明顯差異化,進而凸顯自己的品牌色彩。蘋果(Apple)、Google、Facebook、Tesla等大廠都自行為特定應用設計專用的SoC,原因也就在此。 其次,既有的CPU架構在應對AI、IoT所帶來的多樣化需求時,確實有些力有未逮之處。不是現有CPU架構無法實現這些應用,而是在效率面、成本面還有很多改善空間。RISC-V填補了這些缺口,進而讓很多本來採用標準CPU架構,甚至是像英特爾(Intel)、Microchip這些本身就擁有自定義CPU架構的供應商,願意在RISC-V上投入資源。 最後,沒有任何一家廠商或是國家,會樂於見到單一技術供應商擁有市場壟斷地位,因為這會帶來許多風險。先不提新興國家的政府或科技企業對此會有疑慮,即便是美國的科技公司,也會想在既有的主流技術之外,扶植新的供應商與其抗衡。在這個時間點上,RISC-V成為一個頗具潛力的替代方案,且因為RISC-V是開源硬體,沒有權利金、授權費的問題,對大廠來說,只要投入少許資源,就能探索新的機會跟可能性,何樂而不為? 總結來說,RISC-V社群能在短時間內如此蓬勃發展,背後不只有單一原因。有發展潛力的技術、AI及IoT等應用趨勢凸顯出標準CPU架構的問題,加上各家廠商與各國政府分散風險的戰略考量,都促成RISC-V爆紅。
0

突破尺寸/功耗/效能天險 智慧推論晶片迎接新典範

未來消費性裝置創新,須仰賴創建更智慧的新型聯網裝置。此一未來,會由更多具有近端機器學習推論能力的知覺型感測器(Perceptive Sensor)所推動。運用這些感測器並同時擴大推論網路,將能推動智慧型裝置在幾乎所有方面的功能與使用者體驗的提升。隱私權亦可透過終端裝置本地推論的運行而獲得改善,因為只有最少量的使用者資料及感測器資訊會上傳至雲端。 機器學習被鎖在雲端 機器學習與智慧型裝置的交會解放了消費性電子產品新一波的創新。然而最佳的機器學習網路處理需求以及低功率處理器效能之間還有極大的差距。目前的解決方案是運用裝置收集並廣播感測器的資料至雲端,而高功率、專用的機器學習處理器則在雲端負責推論,並在完成後將結果透過網際網路回傳至使用者裝置。這個方法雖能提供機器學習的功能,但亦有極明顯的弱點。裝置有限的能量必須消耗一部分以保持持續的網路連線;雲端運算的延遲亦會限制了裝置對推論的應用,並且會破壞使用者體驗。而傳送原始資料的需求則讓裝置難以維護資料安全,並造成隱私權的顧慮。整體而言,這些限制了智慧裝置對機器學習的實際運用。 第一代的低功率機器學習處理器的整體容量與運算能力不足,只能專注在基本網路應用,如語音指令辨識,以及用於攝影機控制及客製化過濾的特徵偵測等。機器學習的核心邏輯絕大部分被減慢的摩爾定律所限制,因此若沒有效能上快速的改善,機器學習就必須維持在雲端。僅有在運算架構出現突破,方能創造出高效能、高正確度的近端推論。 本文意在展望複雜的推論網路可在幾乎任何消費型裝置上執行的未來─現在已極度接近。全新的「智慧型推論裝置」浪潮將會提供近端高效能的機器學習,讓敏感性的使用者資料不必上傳網路及雲端。其能自動化運用機器學習以改善低階裝置的功能以及使用者體驗。其將由快速創新、機器學習的同步處理、處理器設計、裝置設計所驅動,以創造全新的未來使用者體驗。 機器學習推論的突破 近期機器學習所克服的進階挑戰,揭露了新興智慧型推論裝置的絕佳前景。眾多團隊投身機器學習研究與學習/推論的程式碼庫,讓機器學習進入指數型的學習曲線。大部分的進展多與裝置的雲端連線能力或近端處理有關,針對處理較小資料集的研究則是純粹近端處理的最佳候選。裝置近期可以直接運用的創新包含: ・觀察手勢並處置實體世界物體 這項創新在兩個相關領域中已取得進展,可追蹤人類與機器人手臂,及教導機器人執行觸覺操縱。2019年,OpenAI透過在3D模擬中訓練的機器人展現出手指的靈活性,將其知識轉移至現實,並適應現實世界的物理現象。這創造出可以執行複雜任務的彈性,像是解開真實世界的魔術方塊,卻不需要真實世界的訓練。此外,2019年Oculus Quest亦發表了視覺感測器的手部追蹤技術,需要同時使用4具攝影機以進行6個自由度的頭部追蹤。該解決方案在Snapdragon 835處理器及3MB的神經網路架構,以500mW的耗能提供骨骼及數個手勢追蹤。此前非機器學習的解決方案必須使用景深攝影機及專用邏輯,並消耗超過15W的功率,卻僅能提供明顯較差的正確性。 ・以現在的行動衡量未來結果 在Google的DeepMind中,強化學習經過修改而能了解賽局中決策的長期結果。Temporal Value Transport演算法則是用以將未來所得的結果通知現在,結合未來利益的機率於當前的行動中。這種結合未來結果於目前決策的能力能大幅改善機器學習系統在現實世界的決策制定,除可協助裝置進行更複雜決策的制定,還能大幅改善可執行任務的數量以及可應用狀況的複雜度。 智慧型推論裝置 開創全新體驗 運用推論協調裝置功能是未來裝置設計的強大典範。推論驅動的設計可以創造全新等級的使用者體驗,同時改善低階裝置的功能。具有多重網路推論的裝置將用以進行使用者與環境輸入訊號的複雜翻譯而不需要運用到雲端。使用多重同步網路能讓裝置對於使用者與環境輸入訊號有更高層的理解及反應。這些裝置受到影響的邏輯包含: ・智慧型推論裝置啟動  機器學習極適合翻譯聲音、手勢以及視覺輸入,以啟動裝置、節省電池電力並減少雲端資料傳送。 ・雲端運用與資料隱私經衡量 裝置可以運用推論在雲端相關任務上,包含進一步推論,或是非推論的雲端計算。裝置可以在近端進行推論,而不需要提供原始資料至雲端。聲音、影像及感測器資料及其所產生的推論均不需要上傳。裝置可以決定哪些資料需要傳送至雲端,而該邏輯可以透過設計以強化隱私與資料安全性,而不需要因為必須在雲端處理而公開地揭露。 ・推論驅動使用者體驗 在裝置靈活性、真實聲音翻譯及重製、導航、視覺、偵測、辨識等裝置功能的提供上,推論已證明具最佳的表現。推論可以直接用以創造全新使用者等級的功能與體驗,這些都是不具推論能力的裝置所無法提供的。可同時使用一組以上神經網路的處理器,具有能在裝置及使用者層級同時運用視覺、聲音及創新感測器輸入以制定複雜決策的能力。 啟動智慧型推論裝置 啟動感測器或連接至雲端都需要運算、耗電以及成本。若裝置能快速推論,一旦感測器的輸入需要後續對應動作時,處理器便能聰明地啟動、建立無線網路連線,而雲端的任務亦能明確地被指派。以此方式,低功率的推論便能透過把有趣的動作偵測、聲音啟動以及使用者意圖等留在裝置近端處理,節省整體裝置的耗電(圖1)。 圖1 推論驅動設計的智慧裝置運作 智慧型啟動的重要性不應該被低估─裝置可以進入可接受的耗電範圍,而在許多應用中雲端服務可以避免雙位數的誤判。 ・只有當任務短語和語調提出時,更聰明的啟動文字才會觸發裝置和雲端活動。 ・在各種基於攝影鏡頭的應用中,智慧動作感測可預測動作的意向,以避免下游處理。 ・智慧感測處理能減少一般功能處理器的負載,並運用機器學習來聰明地啟動裝置。 雲端運用與資料隱私經衡量 行動與社群應用帶來前所未有規模的運算與隱私挑戰。為雲端所設計的應用,可以把推論移轉至裝置,減少延遲並節省雲端資源。此外,如穿戴式裝置或智慧音箱等產品亦能決定近端、多因子排程以執行不同甚至是多重供應商的雲端服務。雲端雖然有極大的運算能力與資料量,不依賴網路連線的近端裝置則免於網路延遲與不可靠性。能正確在近端執行推論的裝置,因為能在近端分析聲音、影片、空間及其他感測器資料,僅需傳送較少的資料至雲端,能大幅改善機會來保護使用者隱私。 ・機器學習從雲端轉移至近端裝置可以達成低延遲的使用者反應,能大幅改善聲音、攝影機、手勢等輸入的使用者體驗。 ・近端的影片與聲音分析可以在近端執行,僅有在需要進行雲端分析時才將影片或聲音上傳,因而能保護敏感的使用者原始資料流。 ・智慧型應用程式介面亦能讓單一智慧裝置對來自多個供應商的應用程式進行任務分派並進行雲端互動。 推論驅動使用者體驗優化 推論是讓裝置開啟尖端且全新使用者等級功能的核心性能。結合機器學習推論的聲音與視覺處理讓裝置能辨別複雜的指令與語境,而後產生絕佳的成果。可在新興智慧型推論裝置上擴展的功能,包含使用者回應功能像是生物辨識存取、環境回應、有意義的輸入以及衍伸的人類意圖。此外,還包含替身模擬、機器人控制、智慧型感測器控制及導航等功能(圖2)。 圖2 機器學習推論可讓裝置開啟全新使用體驗的尖端功能 智慧型推論裝置機器處理器的期待屬性 能協調智慧型裝置功能的處理器,將運用機器學習技術,同時包含與裝置感測器、核心處理以及功率控制的關鍵介面。其將成為裝置的大腦,以啟動裝置的功能並調配關鍵的處理。理論上,其能提供實用的功能讓裝置因為減少耗能、必要時智慧化啟動裝置功能、確保其能依安排的需求而啟動,而成為更好的產品。在此同時,其能高效率正確地處理複雜的網路,體積又能更小─讓其可以置入體積精巧的平價裝置。 未來智慧型裝置的關鍵考量是其在感測器與耗能之間的關係。許多裝置需要延長電池使用時間。現今,複雜的視覺感測器資料分析會以最大Thermal Design Power(TDP)的狀況下消耗所有的運算資源。智慧型感測器僅有在必要時會啟動處理、無線網路、雲端互動及實體功能。智慧型感測器與裝置功率的減少是加速智慧家庭採用的必要項目。智慧化啟動網路運作及雲端互動可以減少裝置耗能、延長運作時間、增加尖端功能所能保留的電力預算。家用配線是長期的限制,需要許多裝置以電池運作,以增加消費者的採用。現今電池運作的智慧型家用裝置通常使用4個以內的AA電池或是3500mAh的充電電池,而目標運作時間則在3個月以上。運用智慧型感測器,僅在必要時才啟動裝置,在近端處理輸入而不需要無線網路的連線,可以顯著增加其功能,並減少對於電力的需求。 最佳化的效能、架構、軟體、功率以及研發平台的匯集,對於推論成為未來智慧型裝置設計的驅動因素是全部必要的條件。最佳化的推論處理器將在這些屬性上同時擁有優異的表現。 效能 ・高機器學習網路效能/瓦特:能執行高正確性、現代的影片/影像/聲音處理類型網路。 ・一致的加速度:即便在網路程式碼改變,並擴大多重網路類型,仍能提供相對一致的加速度。 架構 ・整合式設計:小尺寸及高度整合,以簡化設計。 ・標準匯流排:使用標準介面與匯流排設計,易於整合至裝置。 ・多重感測器輸入/輸出介面:支援影片、聲音、常見及新興的感測器。 ・可擴充性:在相同的程式碼下,設計架構能擴展至多重ASIC或是更大、更高性能的ASIC。 ・低延遲:整合記憶體架構及快取,以快速處理所擷取的資料,包含聲音及高解析度/多重攝影機影像等。 軟體 ・快速載入:快速並動態載入,同時執行多重機器學習網路。 ・不特定機器學習網路:執行任何神經網路型式或是分層類型。 ・執行及相關多重機器學習處理:運作多重網路並執行橫跨多重推論的分析。 ・一般目的運作:執行程式碼以產生完整形成與裝置運作相關的成果。 電力 ・低TDP:支援電池電力以延長穿戴式裝置及離線操作的使用時間。 ・低熱度限制:低熱度適合支援穿戴式裝置及全被動式運作。 ・快速啟動:由使用者或感測器呼叫可快速、低延遲的啟動加速器,適合底層以低於使用者感知等級的運用。 ・選擇性啟動:命令和控制感測器啟動,支援額外處理,協助裝置平均耗能最小化。 平台 ・強力的SDK及說明文件:軟體工具集,搭配第三方工具的支援,使其易於運用於目標的加速器中。 ・最佳化的預製:針對主要應用的功能區塊,如偵測、分類、除噪等,提供直接替代(Drop-in)的支援。 ・部署工具集:來自主要機器學習平台如MXNet、PyTorch、Caffe及TensorFlow的移植工具等強力支援。 兼顧尺寸/功耗/效能 全新推論處理器登場 新創公司Perceive發表全新的Ergo,是款高度整合的推論處理器,能將所有推論處理卸載至低功率應用及小尺寸裝置。Ergo能以相當於55 TOPS/W的性能執行推論,而在全功率運轉時可以達到4 TOPS,而不會犧牲正確性,或限制可支援網路的類型。Ergo ASIC採用7×7mm FBGA封裝並能以約20mW耗能處理許多網路,最大功率約為120mW,且完全採用被動式散熱。在現場展示中,Ergo在全速運轉之下溫度仍低得可以直接碰觸。 Ergo是設計來執行傳統上僅能在資料中心等級推論處理器上方能運作的網路。現今Ergo可以完整執行YOLOv3,在批量尺寸為1時以246fps處理6400萬組參數。Ergo可以執行傳統上需要超過400MB儲存空間且有超過1億組參數的網路。 與之前設定為低耗電應用的推論處理器相比,Ergo計畫並達成所有之前的處理器及專用加速器擁有相當的每瓦特效能的20倍至100倍的功率效能。現今的推論處理器一般低於5 TOPS/W,而Ergo則可以達到55 TOPS/W以上。 要達成這樣的效能,Perceive發展出全新的運算架構,能維持高正確性,但大幅減少記憶體與耗電量的要求。Ergo新穎的網路表示法(Representation)避開推論對於MAC陣列的需求,並因而精巧至足以在晶片內記憶體執行大型網路。Ergo晶片亦採用積極性功率與時脈閘以增加電源效率。因此,Ergo能在7mm×7mm的封裝內提供極高的正確性。結合了源自數學原理的方法至機器學習、不是依據MAC而設計的架構、沒有外部記憶體、傳統的節電技術,是讓Ergo可以在資料中心等級網路上提供高正確性、效能與效率的原因。 廣泛的移植網路和一致的效能提升,代表該公司已成功創造一種能提供相對於今日推論負載明顯效能改善的架構。此外,該公司亦已展示許多多重網路應用,均與其宣稱的網路容量及性能相符。 Perceive Ergo能直接串接高解析度、高影格率影片感測器,讓多重感測器與即時元資料(Metadata)有機會作為推論處理的額外輸入。此能提供先進的問題解決與多重網路推論,讓其能運用於核心裝置控制與先進的終端使用者功能。有了高效能與網路容量,亦可能推出全新的功能。在此機會之下,軟體設計與訓練出現新的挑戰,對裝置生產廠商成為全新的技術挑戰。Perceive已試著透過工具套件(其中含有針對一般機器學習應用的已可用於部署Ready-to-deploy網路),讓研發更為容易。 Perceive Ergo機器學習網路範例 Perceive Ergo可同時執行多個網路,讓智慧型裝置能採用推論驅動設計。其已使用現今多層次網路如CNN(包含殘差邊緣)、LSTM、RNN及其他網路進行測試。示範的網路包含: 以M2Det進行多重物件偵測 多重層次多重尺度偵測器(M2Det)是新發表的類神經網路(2019年1月),用以進行物件偵測及在地化,設計以偵測尺度差異極大的物件。M2Det是款端到端、單一拍攝物件偵測器,其在現實世界應用極為實用,因為物件可以是在漸進場景中且尺寸及比例差異極大。 以YOLOv3進行多重物件偵測 YOLO是由Joseph Redmon及Ali Farhadi所創造的CNN式類神經網路,可以在影像及影片中辨識並定位高達80個物件類型。現今YOLOv3是資料中心最受歡迎的多重物件偵測器之一。 以專用網路進行聲音事件偵測 最佳化的類神經網路可以以小尺寸的類神經網路辨別多重聲音事件類別,讓其極適合運用搭配較大的視覺處理類神經網路使用。 以ResNet進行臉部辨識 深度殘差學習因較易訓練與絕佳的正確性而受到關注,其為微軟研究院(Microsoft Research)在2015年所發表。多重層次配置的ResNet已運用於大型樣本地區臉部與影像辨識。 Perceive Ergo同步推論類神經網路範例 Perceive Ergo已示範結合這些類神經網路運作,並且以其自身的記憶體/網路權重能力在技術上是足以同時執行多重類神經網路。此處理器能執行全新類神經網路的組合,處理使用內建輸入/輸出埠自多重偵測器所取得的資料。 Perceive...
0

AIoT應用含苞待放 邊緣推論晶片迎來戰國時代

相較於AI雲端訓練領域的蓬勃發展,邊緣推論則像是一片含苞待放的花園,各式各樣爭奇鬥艷的花朵準備盛開,智慧物聯網AIoT應用破碎化,很少有一個應用可以像過去主流應用一樣每年創造數億或10幾億出貨量的產業規模,每個應用的需求又各自不同;不過,業界估算整體AIoT產業的規模至少數十億甚至上百億,邊緣推論晶片未來幾年產業發展潛力十足。 目前人們生活中的絕大部分應用都需要機器學習(Machine Learning, ML)及邊緣運算解決方案,如語音辨識、人臉識別、符號偵測與定位、車牌辨識等。大多數應用場景需要即時的用戶互動與反應,強調能在地處理解決問題,而毋需將數據傳遞到雲端並進行運算,透過邊緣運算可以降低雲端運算的負擔,也可以解決延遲性、安全性和可靠性的問題。 AI聲音/影像應用推陳出新 由於AI演算法與處理器能力持續提升,超高影像解析度(Super Resolution)、準確的物件偵測(Object Detection)、影像分類功能(Images Classification)、快速的語音翻譯功能(Speech Translation)在過去一年獲得大幅進展。Arm首席應用工程師沈綸銘(圖1)提到,AI為使用者帶來更好的使用體驗。例如超高影像解析度能讓使用者掌握影像細節,大幅提升觀賞影片的體驗;Avatars效果能讓使用者在自拍時使用有趣的即時動畫效果;相機的智慧夜拍模式,則讓光源控制更輕鬆,在低光源下拍攝也能媲美日拍一般清晰;此外運用生物辨識技術的臉部辨識與解鎖功能,能讓消費者使用手機付款時更安全更便利。 圖1 Arm首席應用工程師沈綸銘 沈綸銘進一步提到,除了超高影像畫質能提升觀影體驗,AI也能強化整體的聲光環境,例如偵測影視內容所需,調整或放大聲量,或者對應室內光線環境,調校顏色對比與鮮明度;還能為家中有小朋友的家長把關,當偵測到電視前方有小朋友,電視會自動停止播放不適合的影視內容,以上這些功能或多或少都有AI的協助。 觀察AI專用晶片進程,沈綸銘認為,未來產品將朝向分眾市場發展,根據各式需求,像是算力、功耗、軟體大小、軟體開發框架等而有不同的發展趨勢。以嵌入式系統為例,市場上需要在少量功耗增加下提供有效率的運算處理。相對的,以自駕車系統為例,市場上則需要可延展的AI運算加速器,以及通用性的軟體開發。 邊緣推論講算力拼省電 卷積神經網路(Convolutional Neural Network, CNN)是這波人工智慧技術發展的起點之一,也是目前發展成熟度最高的技術,其對影像辨識效果最佳,應用也非常廣泛;過去幾年在指紋辨識領域取得領先地位的神盾(Egis Technology),也將原先的核心技術與AI結合,神盾新技術研發處副總經理林郁軒(圖2)表示,以智慧型手機指紋辨識功能為例,透過邊緣AI的協助,在辨識時毋須喚醒應用處理器也無須聯網,對整個系統的耗電與反應速度大有幫助。 圖2 神盾新技術研發處副總經理林郁軒 神盾從指紋辨識起家,為了優化指紋辨識的效能而導入AI,再從指紋的影像辨識往人臉、行為、動作等各式影像辨識技術發展,林郁軒解釋,邊緣運算尤其是行動終端或AIoT類的產品,除了算力還會比較每瓦的TOPS,導入AI也不能犧牲電源效率,這應該也是未來邊緣推論晶片競爭的重點。以神盾現在的解決方案來看,每瓦約可提供1~2TOPS算力,預計年底將提升到3TOPS,2021年則將推出20TOPS的解決方案。 未來幾年,對於ASIC廠商而言,與客戶深入溝通,將需求明確定義,是非常重要的關鍵,林郁軒認為,這樣才可以透過專用演算法與電路的設計,提高晶片的每瓦TOPS。而在推論的精度上,一般而言精度越低效率越好,所以也有滿多設計會導入可調式精度架構,讓精度與效率可以依應用調整。 AI系統效能為更可靠指標 針對AI算力已經成為效能指標的代名詞,在台灣可以被稱得上是人工智慧「獨角獸」的耐能智慧(Kneron),該公司董事長劉峻誠(圖3)指出,算力就跟CPU的處理速度一樣,只是AI晶片的運算能力,並不能代表整個系統效能,一味追求TOPS或是每瓦TOPS的數字表現,容易陷入迷思。耐能於2019年推出KL520晶片,具備「可重組式人工智慧神經網路技術」,會根據不同任務進行重組,減少運算複雜度,保證在不同的卷積神經網路模型上的使用,無論是模型內核(Kernel)大小的變化、模型規模的變化,還是影像輸入大小的變化,都能保持高效率使用運算(MAC)單元。 圖3 耐能智慧董事長劉峻誠 劉峻誠並提出「Edge AI Net」的概念,透過AI晶片,能夠將生命賦予終端設備,實現去中心化、離線本地處理、主動智慧等目標。一般而言,目前的AI網路如CNN、遞歸神經網路(Recurrent Neural Network, RNN)或長短期記憶(Long Short-term Memory, LSTM)網路,都是由卷積、剪枝(Pruning)與矩陣乘法器組成,耐能的晶片可以因應不同應用需求進行網路重組,所以一款晶片可支援多個不同網路架構,並組成Edge AI Net,讓算力共享,而能達成1TOPS算力,創造3TOPS效率的效果。 2020年下半年耐能計畫推出新款的AI晶片KL720,具備可堆疊式設計,可因應網路效能需求大幅提高算力,也不放棄個別晶片的每瓦TOPS,同時進一步將Edge AI Net概念具體實現,以「Kneo」的名稱推廣其智慧物聯網AIoT概念。從2019年發表KL520開始,已經有數百萬顆晶片的出貨量,未來這些產品都將是一個網路節點,有機會成為AI時代最具影響力的架構。 邊緣推論晶片大發生 在PC與行動通訊時代,最後都只剩少數晶片大廠主導市場,如英特爾(Intel)、AMD與高通(Qualcomm)、聯發科(MTK)。AI目前是百花齊放的時期,會不會延續之前的發展模式還很難研判,但競爭的激烈程度可以想見;恩智浦(NXP)AI晶片專注於邊緣運算晶片和終端產品晶片。恩智浦半導體大中華區業務行銷資深經理黃健洲表示,於邊緣運算和閘道,提供如i.MX處理器和Layerscape處理器並加強NN/ML加速器運作為目標,提供更快的反應時間,而毋需連接到網際網路執行機器學習推論並提高隱私和安全。 除了開發人工智慧晶片外,恩智浦還打算為使用者提供完整的生態系統,建立開發環境,推出邊緣智慧(eIQ)SDK工具,用於收集資料庫和開發工具,建構MCU/MPU的機器學習應用程式,如i.MXRT10xx與i.MX8M Plus應用處理器。 而在行動通訊時代取得重大成功的Arm,同樣積極發展AI解決方案,沈綸銘說,Arm...
0

製程升級/專用化/改架構 AI訓練/推論晶片算力攀升

人工智慧(AI)在經過幾年熱潮後逐步落地,過去強調AI準確性的做法,轉變為追求效率,而「算力」似乎成為AI晶片效能最容易理解的指標,TOPS(Tera Operations Per Second)或TOPS/w慢慢成為產業共識,儘管構成算力的條件很多,AI執行效能也非僅從算力就能完全判定。進入所謂AI 3.0的時代,資料運算複雜性持續提升,但希望在有限的資源下達成最佳化管理的目標,算力就是系統效能最初步/簡易的判別指標。 另外,AI針對不同場景與任務,可以分為雲端(Cloud)與邊緣(Edge)、訓練(Training)與推論(Inference),為了提升效能表現,這四類工作走向專用與分流,處理雲端訓練的晶片依然強調運算能力,希望能以資料處理量為重點,然而在另一端的邊緣推論則可犧牲部分精度,以求在最低的功耗下獲得可接受的結果,在強調運算與講求耗電的兩種需求就像是光譜的兩端,加上雲端推論與邊緣訓練,為AI晶片畫出四個明確的專用分流路線。 AI晶片分流專用成趨勢 1TOPS代表處理器每秒鐘可進行一萬億次(1012)運算。每秒浮點運算次數(Floating-point Operations Per Second, FLOPS)是每秒所執行的浮點運算次數,代表AI網路資料處理能力。整數運算則是使用在推論上,8位元整數(INT8)逐漸成為邊緣推論的主流,工研院產科國際所產業分析師范哲豪(圖1)認為,準確度更高的INT16與INT32,只出現在某些特殊應用,部分單純的應用更僅要求四位元或二位元精度。 圖1  工研院產科國際所產業分析師范哲豪 根據2018年中國清華大學的「2018人工智慧晶片技術白皮書」,將AI晶片分為三類,第一類是經過軟硬體優化可高效支援AI應用的通用晶片,如GPU、FPGA;第二類是專門為特定的AI產品或應用而設計的ASIC晶片,主要側重加速機器學習,尤其是神經網路、深度學習,目前智慧物聯網AIoT的終端應用出現越來越多這類晶片;第三類受生物腦啟發設計的神經形態運算晶片,這類晶片不採用經典的馮紐曼架構(Von Neumann Architecture),模擬人類神經元的運算模式,可以大幅提升算力。 大致說來,第一類通用型AI晶片是以雲端訓練為主,代表性廠商就是NVIDIA、Intel、Xilinx、Qualcomm這類大廠。第二類專用型的晶片以邊緣推論為主,廠商則是百花齊放,老將與新星並陳,許多原來發展ASIC的廠商與乘著AI浪潮興起的「獨角獸」都發展這類晶片。范哲豪提到,第三類神經網路晶片則是未來趨勢,像IBM或美國國防高等研究計畫署(DARPA),還有一些學校、知名技術實驗室已積極研發相關技術。 科技產業投入AI晶片前仆後繼 AI晶片是2019年半導體的投資熱點,工研院資通所嵌入式系統與晶片技術組長盧俊銘(圖2)指出,雲端以訓練為主,邊緣推理應用廣泛,因此出現雲端有訓練,邊緣有推理的說法,許多新創業者嶄露頭角;而處理器龍頭Intel繼2016年4.08億美元併購Nervana之後,2019年底再度以20億美元併購以色列AI晶片廠商Habana,同時擁有CPU、GPU、FPGA、AI專用推論與訓練晶片,具備最完整的AI產品線,展現進軍此領域強大的決心。 圖2  工研院資通所嵌入式系統與晶片技術組長盧俊銘 范哲豪強調,AI演算法、運算力、資料是AI三大要素,所以Google、Amazon、Microsoft、Facebook、阿里巴巴、百度等網路服務大廠也積極投入開發資料中心伺服器專屬的AI晶片或邊緣處理器。另外,恩智浦半導體大中華區業務行銷資深經理黃健洲(圖3)說,AI雲端晶片特點在於運算和圖形處理能力,並提供安全的客戶解決方案、應用和設備管理環境;邊緣端的優點則是保障隱私、改善用戶體驗、高可靠性的應用需求。 圖3  恩智浦半導體大中華區業務行銷資深經理黃健洲 而訓練則是透過量化等為更精確的訓練模型生成提供動力,訓練模型經過非常縝密的計算而且時間密集。黃健洲認為,需要更多資料遷移和AI引擎被創造出來為RTOS或低功耗電池平台提供輕量與靈活的訓練模型,以導入邊緣運算。推論(如Arm推出的Arm NN、Arm CMSIS-NN、OpenCV等)的趨勢則以提高卷積、匯集、動作等功能。 AI新架構成長期發展重點 為了提高AI晶片效能,算力成為關鍵指標之一,范哲豪解釋,傳統的CPU採用序列式運算,AI處理器則著重平行式運算,AI的運算與資料關係密切,資料介面頻寬成為運算的瓶頸之一,於是近來有更多解決AI運算時資料存取瓶頸的技術被提出,包括升級記憶體頻寬、讓處理器與記憶體靠的更近的近記憶體運算(Near Memory Computing)、運算單元與記憶體整合的記憶體內運算(In Memory Computing)等。 多年來資訊運算與處理都是依循傳統的馮紐曼架構,運算與儲存單元分開,范哲豪進一步說明,無論是CPU、DSP或GPU都是單獨處理運算,需要資料再從記憶單元呼叫,而在AI發展的過程中,運算單元不斷提升處理能力,資料匯流排頻寬沒有隨之擴充或追不上運算提升的程度,AI運算需要在運算同時取用資料,為了使AI運算最佳化,重新發展晶片的架構或材料,讓運算與記憶體的取用更即時,成為技術研發的方向。 目前常見的作法是Near Memory Computing,像NVIDIA的NVLink高速GPU互連技術,可以提升GPU的互聯頻寬與記憶體的取用速度,提供50~200GB/s的頻寬。或者是減低記憶體與處理器連線距離的設計如晶圓堆疊(Wafer on Wafer,...
0

Google Coral產品搭載瑞薩高效電源管理IC

先進半導體解決方案供應商瑞薩電子(Renesas)日前宣布其ISL91301B電源管理IC(PMIC)應用於最新的Google Coral產品當中,包括Mini PCIe加速器、M.2加速器A+E密鑰(M.2 Accelerator A+E Key)、M.2加速器B+M密鑰(M.2 Accelerator B+M Key)、以及系統模組(System-on-Module, SoM)。Google Coral可和任何規模的程序(Process)無縫整合,進而協助設計人員為多個行業創建各種當地的人工智慧(AI)解決方案。 瑞薩電子行動基礎設施與物聯網能源事業部副總裁Andrew Cowell表示,很高興能和Google合作,一起開發創新的下一代產品。該公司的多相位PMIC採用瑞薩電子的R5調變技術,可實現極為快速的暫態響應,因此Google的設計人員能夠機動性地調整功率來改善整體的系統效能。 Google Coral技術支援低功耗設備的高等神經網路(Advanced Neural Network)處理程序,其核心是Google Edge張量處理單元(Tensor Processing Unit, TPU)協同處理器,能執行每秒4萬億次的操作(Trillion Operations Per Second, TOPS),而每TOPS所使用的功率僅為0.5瓦(每瓦2TOPS)。例如能以節能的方式,執行諸如以400 FPS速度運作MobileNet...
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -