NPU
Arm新NPU增添AI平台效能/應用性/效率
有鑑於增添 AI 功能的各式裝置愈來愈多,Arm日前宣布推出 Ethos 產品線的最新成員:ArmEthos-U65 微型 NPU(類神經網路處理器)。專注於 AI/機器學習(ML)處理、並提供全新效能點與能力的 Ethos-U65,保有 ArmEthos-U55 的功耗效率,並將其可應用性從 ArmCortex-M 延伸到 ArmCortex-A 與 ArmNeoverse 架構的系統,更達成兩倍的終端 ML 效能。
邊緣與終端裝置快速採用 AI 與 ML,不但帶動功能性的提升,同時也增加裝置與系統的需求。因此也意謂著供應商必須推出配備更高效能與終端 ML 能力的系統,同時維持或改善功耗效率。
Arm的...
專訪Arm應用工程總監徐達勇 AI與資訊安全共構AIoT願景
5G時代各類裝置的效能要求大幅提高,AI將協助裝置提升智慧化的能力,Arm應用工程總監徐達勇表示,以手機來說,85%的機器學習應用仍在CPU、或者CPU+GPU的處理。雖然市場上有NPU或者APU的選項,但較為少數。以IoT裝置來說,很多機器學習的推論功能也都在Cortex-M4或者Cortex-M7上處理。另外,隨著機器學習(Machine Learning, ML)應用越來越多,未來也將運用到神經網路處理器(Neural Network Processor),比起加速器更為通用。
Arm應用工程總監徐達勇表示,5G時代各類裝置的效能要求大幅提高,AI將協助裝置提升智慧化的能力
Arm近年積極發展AI能力,相關IP都能進行AI運算,徐達勇指出,與Cortex A系列搭配的,會有Ethos-N77、N-57與N-37,以針對不同應用、不同效能的需求。而與Cortex M系列搭配、為低耗能應用的Ethos-U55 NPU。因應未來5G時代在機器學習的需求,Arm提供從CPU底層微架構上的加強,到在CPU上層的軟體框架,包含Arm Neural Network(NN)以及為Cortex M的CMSIS NN。
而裝置聯網的數量呈現爆發性成長,讓許多裝置暴露在資安風險下,Arm當然也意識到這樣的問題,徐達勇認為,先要做威脅分析,釐清是物理攻擊或是軟體攻擊,針對網路攻擊,Arm TrustZone主要防護軟體攻擊,將SoC設計分為Normal World與Secure World,可以保護一些需要高安全防護的應用。Arm Cyptocell/Crptoisland防護物理攻擊,如有人惡意去量CPU或SoC與Memory之間的讀寫然後去破解,就需要更高階的防護等級。Platform Security Architecture(PSA)則是防護架構,從分析、制定架構、實施、最後到裝置認證,PSA提供確認清單,協助用戶檢查其裝置安全要求是否到位。
Arm新AI技術使物聯網終端裝置更智慧化
Arm日前宣布其人工智慧(AI)平台新增重要生力軍,包括全新機器學習(ML)矽智財、ArmCortex-M55處理器、Arm Ethos-U55神經網路處理器(NPU),這是針對Cortex-M平台推出的第一個微神經網路處理器(microNPU),這樣的設計(Cortex-M55結合Ethos-U55)為微控制器帶來480倍-跳躍式的機器學習效能。全新的矽智財與搭配的開發工具,可為數十億個小型、低耗電的物聯網與嵌入式裝置,帶來終端機器學習處理能力,並得以讓AI的硬體與軟體開發人員能以更多的方式進行創新。
Arm 資深副總裁暨車用與物聯網事業部總經理Dipti Vachani表示,要讓AI無所不在,裝置製造商與開發人員,必須為數十億、乃至於最終數目達到數兆個裝置,帶來終端的機器學習能力該公司的AI平台增添這些生力軍後,即便在最小的裝置上,終端機器學習即將成為新的常態,因此再也沒有任何裝置會是遺珠之憾,而這也讓AI的潛力在範圍寬廣,並在那些且足以改變人們生活的應用當中,充份且有效地發揮。
Arm 透過新的設計為微處理器帶來智慧,降低半導體與開發成本,同時為想要有效提升終端數位訊號處理(DSP)與機器學習能力(ML)的產品製造商,加快他們產品上市的速度。
Cortex-M處理器已經成為開發人員運算平台的最佳選擇,而Arm的合作夥伴也針對各種的客戶應用,出貨超過 500 億片基於Cortex-M的晶片。新增的Cortex-M55,為Arm歷來AI能力最強大的Cortex-M處理器,它同時也是第一個基於Armv8.1-M 架構、並內建ArmHelium 向量技術,可以大幅增加DSP與ML效能,同時更省電。與前世代的Cortex-M處理器相比,Cortex-M55 的ML效能最高可提升 15 倍,而DSP效能也可提升五倍,且具備更佳的效能比。
此外,客戶也可以使用ArmCustom Instructions(客製化指令)延伸理器的能力,對特定工作負載的優化,而這也是Cortex-M處理器的全新功能;針對需求更高的ML系統,可將Cortex-M55 與 Ethos-U55 搭配,後者是Arm第一個微神經處理器(microNPU)。兩者結合後與現有的Cortex-M處理器相比,ML 效能可以大幅提升 480 倍。
Ethos-U55具有高度的可配置性,同時也是專門設計用來加速空間受限的嵌入式與物聯網裝置的ML推理能力。它先進的壓縮技術可以節省電力,並顯著縮小ML模型尺寸,以便運作之前只能在較大型系統上執行的神經網路運算。
HOLTEK新影像神經網路處理器HT82V82優化智慧生活
盛群(Holtek)引領智慧生活與AIoT應用,推出首款AI晶片HT82V82影像/神經網路處理器,適合影像鑒別(Image Identification)及影像辨識(Image Recognition)的相關應用,如貨幣辨識(Currency Recognition)、車牌辨識(License Plate Recognition)、物件鑒別(Object Identification)、自動光學檢查(Automated Optical Inspection, AOI)、臉部辨識(Facial Recognition)等。
HT82V82為雙250MHz DSP核心,各內建32KB/32KB I/D Cache及FPU提高執行效能,並內建雙L1(16KB/32KB I/D RAM)及L2(256KB)記憶體,加強晶片整體效能。
HT82V82整合影像處理單元(Image Processing Unit, IPU)及神經網路單元(Neural-Network Unit, NPU)。IPU加速影像處理的速度,降低DSP核心的運算負載,NPU支援CNN運算,加速深度學習網路的運算效能。
HT82V82影像輸入單元(Video Input Unit, VIU)可支援CIS模組及CMOS模組,其內建時序控制器可搭配HT82V48高速類比前端處理器,支援2組3~6通道的CIS模組,CMOS模組則可支援2組最高2048×2048畫素的攝影機模組。影像輸出單元(Video...
智慧監控從雲走到端 IP/晶片/設備方案競出籠
監控分析市場已出現了明顯的轉變,過往監控的模式較為「被動」,也就是單純錄影,發生事件時再去調錄影帶。然而,現在監控的重點在於「即時反應」,也就是發現異常時可立即發布警示,進而省下人力通知或是事後影像提取檢視的時間。
也因此,監控系統不斷朝AI智慧化發展,增添如人臉識別、車牌辨識等功能;與此同時,為了能有迅速的反應時間及工作效率,智慧監控也逐漸從「雲」走到「端」。
換言之,過往AI功能多在雲端進行,然而,對於監控產業而言,最大的重點便是「反應速度要快」,事情發生時能立刻警示;而將資料送到雲端進行分析、運算後再送到終端裝置,即便時間再快,多少還是會有所延遲。倘若資料量太大,網路傳輸速度和頻寬無法支援,甚至資料還會停滯在雲端而無法傳輸。也因此,智慧監控便開始從雲端轉向終端裝置。
總結來說,為了加快監控裝置反應速度以及提升效率,開始有許多AI功能從雲端移至終端裝置;而要在終端裝置進行邊緣運算,實現更多AI智慧應用,監控裝置的軟硬體設計勢將有所提升,為此,監控元件/設備供應商也紛紛推出新一代解決方案。
滿足視訊/音訊監控 完善IP方案不可少
Arm市場行銷高級總監Rhonda Dirvin表示,現今擁有音訊或視訊輸入的裝置數量大幅增加,並可用於各種監控功能,例如行車紀錄器、盲點警示、家庭網路攝影機、防盜系統、門鈴、智慧照明、防盜警報等。
Rhonda Dirvin指出,由於現在已能在終端進行推論功能,因此製造商將特別關注智慧家庭裝置。智慧裝置能具有視覺處理功能以監控屋內,辨識家庭成員,並利用視訊在所有物件中提供安全或是與人類的連結。
然而,視覺辨識最大的挑戰之一是大量的使用情境和AI效能需求。從偵測和提取人群中的數百張面孔到辨識停車場中的人臉或車牌,這些用途和效能需求大不相同。除此之外,有各式各樣不同的AI網路,用於解決同樣的問題,因此,完整的IP組合(而非單一解決方案便適用所有情境)十分重要。為此,Arm備有相關CPU、GPU、專用的NPU,以及可擴展的Arm NN平台,協助設備製造商加速進入新的AI監控世界,並更進一步的提高AI和訊號處理能力。
另一方面,Rhonda Dirvin提到,除了視覺,音訊(例如關鍵字萃取或振動感測)也是推動先進監測技術需求的關鍵因素。例如,關鍵字萃取(Keyword Spotting)在2018年受到廣泛討論,而到2019年,簡單的關鍵字萃取將升級到語音辨識。例如家中的智慧音箱,可以辨識誰在提供語音命令,不論是使用者本身或是家人,身份辨識有助於提高智慧家庭裝置的安全性和隱私。
然而,語音辨識的最大挑戰便在於要如何在最低功耗的情況下實現「Always-on」功能。對此,Arm具備多款處理器、CMSIS-DSP及CMSIS-NN軟體核心中DSP擴充套件的超低功耗感測器和運算引擎,可啟動Always-on的環境感測,包含語音、振動、視訊。
Rhonda Dirvin指出,Arm擁有各式不同運算規模優勢,從利用CMSIS-NN軟體函式庫提高效率的Cortex-M處理器;到具有ML擴展能力的Cortex-A處理器,以及ML處理器等,以便支援所有的功耗選項。
兼具低成本/低功耗 NPU成市場新選擇
智慧監控商機起,除了Arm這傳統IP大廠積極備戰之外,新創業者也磨刀霍霍。瞄準終端AI應用需求,耐能智慧(Kneron)於近期發布新一代終端AI處理器系列NPU IP,其分為超低功耗版KDP 320、標準版KDP 520,以及高效能版KDP 720;整體運算效能相較上一代產品提升3倍,運算能力(Peak Throughput)最高可達5.8 TOPS(每秒萬億次運算)。
據悉,新系列產品特色包括交錯式運算架構,讓神經網路架構中主要的卷積(Convolution)與池化(Pooling)運算可平行進行,提升整體運算效率;深度壓縮技術,可執行模型和運行中的資料和參數(Coefficient)進行壓縮,減少記憶體使用;動態儲存資源配置,讓共享記憶體(Shared Memory)和運作記憶體(Operating Memory)之間可以進行更有效的資源配置,提升儲存資源利用率且不影響運算效能;以及支援更廣泛的CNN模型。
耐能智慧產品行銷暨應用協理史亞倫(圖1)表示,智慧監控從雲端走向終端的趨勢十分明確,然而,要如何打造具有高運算能力可實施AI應用,卻又符合業者功耗與成本考量的監控裝置,是一大挑戰。
圖1 耐能智慧產品行銷暨應用協理史亞倫表示,智慧監控開始從雲端走向終端,裝置中的處理器除須有高效能外,同時也須符合功耗和成本考量。
史亞倫指出,監控應用十分多元,不論是零售、交通、商業建築、安防等都會用到,且在各個領域中又細分無數個應用場景;有的可能需要超精準的人臉辨識,而有的可能只須進行簡單的車牌識別。因此,並非每個應用場景都須採用頂級、具超高運算能力的CPU、GPU或是DSP,否則會不符成本需求。
史亞倫進一步說明,因此,該公司便決定打造低功耗的NPU處理器,一來是NPU處理器十分適合AI神經網路運算,有著更多的設計更新彈性;二來是目前監控裝置較少採用NPU晶片,而有了低功耗、成本相對較低,同時還能進行邊緣AI應用的NPU晶片後,可讓市場有更多選擇,滿足對成本有較多考量的監控設備商及終端業者。
因應邊緣運算 SoC效能節節高升
另一方面,不僅IP業者,晶片商也趁勢推出解決方案搶占市場商機。索思未來科技(Socionext)影像處理事業部應用工程科經理陳哲鋒表示,為紓緩雲端運算工作量,降低資料延遲,使監控反應時間更快、效率更高,邊緣運算開始走進各種監控裝置當中,晶片也因而須具備更強大的運算能力,而這也是影像元件供應商於產品上的重點設計方向。
為此,索思未來科技也備有相關的解決方案,像是SC2002/SC2000影像處理器。SC2002配備ARM Cortex-A9 Dual 600MHz CPU以及智慧化的高效數位訊號處理器(DSP);並且搭載三維降噪(3DNR)和寬動態範圍(WDR)功能,可以在低光照條件下捕捉高品質影像,同時在一般運作環境下僅需1.5瓦的超低功耗,適用於各種影像和監控安全攝影機系統。
至於SC2000系列,同樣配置經優化過的DSP,並透過Socionext獨家的Milbeaut影像處理算法,以及影像穩定技術,不須使用機械平衡環及滾動快門校正,可滿足電腦視覺應用。
陳哲鋒進一步說明,提升運算效能,是未來不變的目標。以該公司為例,除該公司本身的SoC就具備高效能可實現臉部辨識、物體偵測等智慧監控應用外,若要達到更高的運算效能,該公司也會結合加速器(如ASIC),以實現更多的AI應用。另外,該公司也計畫於2019年新推出的影像處理器當中,直接結合AI功能(如深度學習、機器學習等)。當然,除了高效能之外,也須兼具低功耗,而該公司的晶片經過測試,在4K 60fps的條件下,與同級產品比較可降低30%的功耗。
實現智慧監控 演算法舉足輕重
因應AI監控風潮,不僅元件/IP業者積極備陣迎戰,監控業者也致力打造更「智慧化」的產品。例如晶睿科技便自行開發深度學習演算法,且將其導入監控產品之中,像是360度智慧魚眼攝影機,使其可分析上千種場景,辨別人類共同特徵,進而衍伸出人群偵測的功能。又或是打造3D人流計數立體攝影機,透過三維定位的景深技術以身高辨別成人與小孩,進而得知哪些人具有消費能力,以及哪個入口處人流最多等具有高度商業價值的資訊。
晶睿科技品牌事業研發副總經理馬仕毅指出,未來廣域監控(如人群、交通、零售等)的需求勢將明顯增加,如何在終端監控裝置上進行運算,降低資料流量,進一步做出即時的判斷將是日後主要發展目標,也因此,該公司致力打造更「聰明」的產品。
馬仕毅進一步說明,提升硬體規格,選用更強大的運算處理器,這是監控設備將來必然的發展方向。然而,AI應用的重點在於「數據分析」,也就是要能將所收集到的數值化為有效的資訊;要如何處理、分析這些數據,是實現智慧監控的重要關鍵。也因此,自行開發演算法可說勢在必行,這也是該公司進行嵌入式系統深度學習網路架構與引擎開發、AI監控系統技術開發(偵測+辨識人/車)以及AI廣域監控系統技術開發(魚眼+多鏡頭)的主要因素。
另一方面,隨著AI應用逐漸興起,相關資安疑慮也跟著浮現。馬仕毅表示,現在監控設備中的處理器(SoC、CPU等)效能越來越高,若被駭客入侵,除了被竊取資料外,甚至有可能成為另一個攻擊節點;因此,如何提高監控設備的安全防護等級,也是未來不容忽視的設計重點。
為此,晶睿與趨勢科技合作,打造「內外兼顧,軟硬防護」安控攝影機解決方案,讓網路攝影機具備預防、隔離、再控制三大功能,杜絕潛在資安危機。當偵測到相關威脅時,通訊攝影機會自動啟動預防功能,避免惡意程式的入侵。而針對已被入侵的攝影機,也會啟動自我隔離機制進行防禦;一旦偵測到惡意程式的入侵,系統將可即時透過雲端更新病毒碼,快速隔離並預防病毒的擴散,將惡意程式的傷害控制到最低,確保其它在同樣架構下的網路攝影機安全。
智慧監控風潮起 顯示/感測需求與時俱進
另一方面,智慧監控風潮除了推動處理器效能持續攀升外,對於顯示器、感測器的要求也有著明顯的轉變。台灣索尼課長葉沛青表示,目前的市場對於720P或是4K影像皆有一定的需求,不過,4K影像應用從2018年開始有逐漸加溫的趨勢。
上敦企業副總經理林光遠則指出,據資料顯示,全球安防行業超高清(4百萬畫素以上)的市場到2018年增長為前期的五倍左右,主因在於智慧分析及高畫質的即時監控對於影像素材的要求更嚴格,希望能更清晰。而4K解析度是1080P的四倍,能夠看出更多的細節與物件特徵,清晰地呈現監控現場原貌,同時能快速實現對於車牌辨識、人臉辨識及行為偵測等的智慧分析應用。
葉沛青進一步說明,2019年從現有Full HD系統升級至4K的數量相信會更進一步的提高,因為如上所述,監控設備開始結合智慧辨識系統的分析,其所要求的影像都會相對提高,驅使企業用戶開始考量監視顯示器的畫質是否需要提升。比如說,4K攝影機能夠處理大場景的監控問題,只要架設1台4K攝影機,就可利用廣角特性涵蓋某個主要的轉運站,藉由細膩的解析度看清行人的面貌與更多圖像細節,像是服飾細節、車牌、人臉等,這些細節於安全監視的實際跟判定應用中極為重要。
因應此一趨勢,目前Sony的攝影機發展以著重於4K以及全天候監控攝影機為主,採用End to End 4K方案增加監控的效率性,當然,未來也會導入智慧分析功能。
至於在感測器方面,艾邁斯半導體(ams)台灣區總經理李定翰(圖2)則指出,監控應用愈來愈廣泛,像是人臉辨識、步態監控等;而為了使後端演算法分析更精確,並降低處理時間與功耗,感測器效能也須跟著提升。
圖2 艾邁斯半導體(ams)台灣區總經理李定翰指出,因應智慧監控,感測器效能也需提升,才能使演算法分析更精確。
李定翰說明,監控的目標眾多,並不只是人而已,還有器材設備、動物,或是快速移動的車輛等;另外,不論監控目標為何,最終都會遇到一個實際的物理現象,也就是在夜晚的時候要如何確保監控品質,鏡頭在晚上如何能拍的清晰,這些對於影像感測器而言,都是挑戰。為此,ams便於CMOS影像感測器中導入全局式快門(Global...
採8奈米製程 三星全新旗艦型行動處理器亮相
因應行動裝置AI應用,三星(Samsung)宣布推出全新高階應用處理器(AP)「Exynos 9 Series 9820」,該產品採用「2+2+4」的三叢式架構,包含2顆三星自行研發的CPU(Mongoose M4),2顆Cortex-A76 核心及4顆Cortex-A55核心,並具備下載速率達2Gbps的LTE Advanced Pro數據機(Modem),以及神經網路處理器(NPU),為行動設備帶來全新的智慧體驗,預計在2018年底量產。值得一提的是,Exynos 9820是採用8奈米製程,而非如華為麒麟980和蘋果A12一樣採用7奈米製程。
三星電子系統半導體市場副總裁Ben Hur表示,隨著AI應用在行動裝置中加速擴展並更加多樣化,處理器需要更高的運算能力和效率;而新推出的Exynos 9820將透過整合 NPU、第四代高性能自製CPU核心,以及2Gbps下載速率的數據機,為智慧行動設備提供全新的效能。
三星指出,和前一代產品Exynos 9810相比,新推出的9820多核性能提升了15%、單核性能最高提升20%,整體效能最高提升40%;並採用Mali-G76 MP12,效能比上一代9810所採用的Mali-G72 MP18增加40%,並減低35%的功耗。
此外,由於9820整合NPU,使得其AI執行效率比前一代產品快了7倍。透過NPU可直接在設備上執行AI相關處理,毋須將指令送至伺服器端,因而能提供更快、更好的AI應用體驗(如臉部識別、拍照環境即時調整及AR/VR等),並確保個人訊息安全性。
至於在網路連線的部分,如前面提到,9820的下載速度最高可達2Gbps(LTE Cat.20 8CA標準),約可在15秒內下載FHD高清電影(3.7GB),上傳速度則達316Mbps(LTE Cat.20 3CA)標準,並支援4×4 MIMO;另外,該產品也可支援4K/150fps或8K/30fps的影像內容,以及10bit HEVC/H.264/VP9的編解碼。
Kneron NPU運算效能提升3倍
終端人工智慧解決方案廠商耐能智慧(Kneron)近日參與在上海舉行的Arm人工智慧開發者全球峰會,以「可重組算法在AI晶片中的應用」為主題發表演說,會中同時發布Kneron新一代終端人工智慧處理器系列NPU IP - KDP Series。Kneron第二代NPU IP包括三大產品,分別為超低功耗版KDP 320、標準版KDP 520、以及高效能版KDP 720。全系列產品的功耗小於0.5瓦(W),採用新的架構設計讓運算更具彈性,整體運算效能相較上一代產品大幅提升達3倍,運算能力(Peak Throughput)最高可達5.8 TOPS(每秒萬億次運算)。
Kneron創辦人暨執行長劉峻誠表示,Kneron推出為終端裝置所設計的人工智慧處理器NPU IP後,其超低功耗的優勢受到市場高度關注。Kneron新一代NPU產品在諸多方面都有顯著的突破,基於第一代產品的優勢,我們改善資料運算流程、提升整體運算效能與儲存資源使用率,同時針對不同神經網路模型進行優化,讓NPU可以更廣泛地應用在各種終端裝置,並滿足更複雜的運算需求。
Kneron NPU IP可應用在智慧手機、智慧家居、智慧安防、以及各種物聯網設備上,讓終端裝置在離線環境下就能運行各種神經網路。Kneron第二代NPU IP採用新的交錯式運算架構(Interleaving Computation Architecture)設計,縮短運算流程和提升效率;深度壓縮(Deep Compression)技術讓壓縮功能從模型層級深入至資料和參數層級,使壓縮率再提升。動態儲存資源配置功能提升儲存資源利用率,卻不影響運算效能。此外,支援更廣泛的卷積神經網路(Convolutional Neural Networks, CNN)模型,並針對各種CNN模型分別進行優化,在不同神經網路模型下,可提升1.5倍~3倍不等的效能。