邊緣運算
靈活/高效方案紛出 AI晶片百花齊放
人工智慧(AI)已逐漸走入大眾生活。AI應用正逐漸滲透到各種領域,例如農漁業、金融、工業還有各式消費性電子產品中。
AI結合物聯網(IoT)時代已然到來,然而AI應用種類各異,各有千秋,不同的應用領域要求的AI技術也不盡相同。為了搶攻龐大的AIoT商機,並實現各種AI創新應用,各大AI晶片供應商不僅持續提供可實現高效運算的解決方案,同時也朝更靈活、彈性的架構發展。
滿足多元應用 AI晶片朝靈活架構發展
AI快速成長,生活智慧化的變遷顯而易見,而要如何在變化多端AI市場中搶占商機。面對AI的迅速發展,未來已不能倚靠單一架構滿足所有應用需求;在傳統的硬體設計方式及設計週期漸漸趕不上AI演算法的推陳出新之時,靈活、彈性的平台架構便應運而生,以滿足AI應用需求。
AI應用推陳出新 賽靈思力轉靈活彈性平台
賽靈思(Xilinx)大中華區業務副總裁唐曉蕾表示,AI應用相當多樣化,且屬性多不相同。也因此,在資料、記憶體結構、效能和精度上等方面都會出現客製化需求。以精度為例,有些應用需要99%甚至是99.9999%的精度,但有些應用則需97%的精度便已足夠。然而,97%和99%的精度雖然只差2%,但在運算資源需求上卻有著相當大的差異,因為要提升精度,須花費相當大的人力、物力和時間。也因此,在AI應用朝多元發展的態勢之下,為使運算時間、資源更有效率,應用業者不再只朝「最好」、「最強」發展,而是朝「最適合」,客製化需求由此而來,也因此,需要更彈性、靈活的設計平台。
賽靈思全球人工智慧市場資深技術專家張帆也指出,AI商業應用迅速增加,資料量以指數型成長,現有的運算架構已不敷使用。另外,由於各式AI創新應用不斷展露,也因此AI相關的訓練與推論呈現百花齊放的狀況,可說平均兩個星期到一個月就有一個全新的演算法提出,因此,更需要新一代具高效能、且彈性靈活的架構來因應此一狀況,滿足AI演算法和應用。
為此,賽靈思便積極轉型,將自身定位成靈活、彈性的系統平台供應及服務業者,而不再只是單純的可編程技術/硬體供應商,例如之前所發布的Versal ACAP平台便是其中一個例子。
賽靈思工業、視覺、醫療與科學市場總監Chetan Khona(圖1)說明,Versal ACAP結合許多創新成果,讓軟體開發者、資料科學家及硬體開發者都能自行加以編程與最佳化,以跟上AI的快速演進;且能讓開發者創建專用領域架構(DSA),在不使用新晶片的狀況下就能自行著手開發客製化演算法。
圖1 賽靈思工業、視覺、醫療與科學市場總監Chetan Khona說明,AI晶片開發商未來面臨的挑戰為適應AI創新速度。
Khona認為,網路邊緣的AI需要在效能、功耗及售價等因素之間取得理想的平衡點;而該公司的Edge AI解決方案能透過先進的量化以及剪枝(Pruning)技術克服此一挑戰。將網路量化為INT8與更低的單元,再搭靈活應變的架構,能讓系統層級效能提高約2倍,或發展出更具競爭力的技術;而剪枝技術則能將網路最佳化,在不犧牲精準度下達到更理想的效能、延遲、能源效率以及成本。
CEVA確保硬體/軟體編程彈性
CEVA客戶行銷及AI策略資深總監Yair Siegel(圖2)則表示,當今的AI應用市場相當分散,沒有一種設備可以滿足所有需求。不過,雖然說各種產品和應用對處理器性能要求都不盡相同,但相似之處皆在於希望能夠利用演算法上的簡單更新,來因應市場變化。所以AI解決方案要保持一定的靈活性,且還須要關注軟體的可編程性,才能使AI產品從研究、設計時期就能平穩地進入量產階段。
圖2 CEVA客戶行銷及AI策略資深總監Yair Siegel表示,2019年將開始看到更多帶有AI功能的攝影機出現。
因此,AI處理器的研究重點在於,演算法精確度與侷限於電池及成本因素的硬體最佳化。換言之,便是能否僅利用設備電池的小量電量,在有限的硬體區塊上執行最新技術。
Siegel指出,為此,CEVA備有用於邊緣深度學習的專用低功耗AI處理器「NeuPro」,可實現高效的硬體加速性能,同時仍保持可編程解決方案的靈活性,且憑藉軟體即可輕鬆升級,以滿足廣泛的終端市場需求,包括物聯網、智慧手機、監控、汽車、機器人、醫療和工業等。除此之外,CEVA還與演算法開發人員合作,讓後者專注於針對網路最佳化,利用設備本身來進行處理。期能讓設備製造商獲得性能更佳的硬體,且還可以快速、多次進行軟體更新。
Siegel透露,簡而言之,該公司的AI解決方案可實現相應的調整,採用全面性的解決方法,不僅能為不同的案例提供可擴展性,並能提供工具和函數庫的自動化以縮短開發時程,同時也兼顧靈活性和效率。
高效晶片仍占一席之地
上述提到,AI應用多元,驅使邊緣運算需求與日俱增,應用開發商與半導體業者皆積極將深度學習或機器學習導入前端設備,希望使前端裝置也有人工智慧的能力;而要滿足多樣化的AI產品,除了靈活多變的架構外,高效的運算也是不可或缺。
英特爾齊備邊緣運算方案
英特爾(Intel)業務暨行銷事業群商用業務總監Alex Cheng(圖3)表示,AI+AIoT是目前相當熱門的話題。在AI興起之後,前幾年產業多是發展「AI Training」;然而,當模型Training好之後,下一步便是導入實際應用,而IoT裝置即是個很好的應用目標,像是監控攝影機、視覺檢測裝置等,都已陸續引進AI。也因此,AI+IoT必將是日後的發展方向,同時也具備很大的潛在商機,成為兵家必爭之地,為此,英特爾也積極布局,備有各式解決方案。
圖3 英特爾業務暨行銷事業群商用業務總監Alex Cheng認為,AIoT已成為各大晶片商兵家必爭之地。
例如不久前所發布的全新視覺加速器設計產品(Intel Vision Accelerator Design Products),強化邊緣裝置AI推論與分析能力。此一解決方案包含Intel Movidius視覺處理器與Intel Arria 10 FPGA,皆以OpenVINO軟體工具套件為基礎,提供開發者在多種Intel產品中使用進階的神經網路效能,在物聯網裝置中運行更具成本效益的即時影像分析和智慧化功能。
英特爾指出,用此一視覺解決方案的企業,不論是在資料中心、現場部署伺服器或於邊緣裝置內採用深度學習人工智慧應用,深度學習推論加速器皆可擴充至其需求程度。
除此之外,為更進一步擴展AI終端市場,英特爾近期也再度推出用於智慧邊緣的高密度系統單晶片處理器「Intel Xeon D-1600」。此一處理器是高度整合的系統單晶片(SoC)處理器,專為功耗和空間有限的密集環境而設計,其結合內建的Intel QuickAssist技術和Intel虛擬化技術,可為虛擬化網路功能(VNF),控制平面和中階儲存解決方案提供更上一層樓的工作負載優化效能和硬體增強安全優勢。Intel Xeon D-1600處理器最多可支援8個核心。
添加DSP指令集 RISC-V處理器效能大增
搶攻AIoT市場,晶心科技則是推出其32位元A25MP和64位元AX25MP...
宸曜科技展出超過15項新品與七大主題
宸曜科技(Neousys Technology)於Computex 2019以整合強固寬溫與設計美學的嵌入式電腦專家的主軸,展出了GPU人工智慧邊緣運算、機器視覺解決方案、擁有專利的超級電容不斷電系統、強固級寬溫嵌入式系統、工業物聯網閘道器、I/O擴充模組以及車載與監控應用之嵌入式系統等,並有多達十五項新品一次性登場,更有業界首款搭載兩張GPU顯示卡之人工智慧平台首次亮相。
暨百度阿波羅(Apollo)開源自動駕駛計畫採用宸曜科技Nuvo-6108GC之後,宸曜科技強勢推出全球首款兼具工業電腦和車載應用設計並支援雙 GPU的人工智能平台─Nuvo-8208GC,專為搭載兩組高階 250W NVIDIA GPU圖像顯示卡的需求而設計,它在浮點運算(FP32)中可提供高達28 TFLOPS的超強GPU運算功率,特別適用於當代尖端的GPU加速邊緣運算科技,比如自動駕駛、視覺檢測、即時臉部辨識與移動監控等應用。
於人工智慧平台方面的新品尚有Nuvo-7164GC與Nuvo-7166GC,其為強固型嵌入式工業等級的AI推理人工智能平台,專為語音辨識、影像和圖形識別,以及電子商務推薦系統等高階推理運算應用而設計。Nuvo-7164GC與Nuvo-7166GC支援NVIDIA Tesla T4 GPU,適用於類神經網絡模型的深度學習以及即時推斷。並且得益於宸曜科技專利的機箱設計和氣流散熱技術,實現高效的GPU散熱功能。
宸曜科技長期專注於設計製造兼具強固及精巧小尺寸的無風扇工業電腦平台,擁有專利的機箱與散熱設計,使得嵌入式系統之CPU與GPU運算於100%負載之下,能夠通過攝氏零下25度~攝氏70度的寬溫環境下穩定運作。嵌入式系統相關新品包含:搭載AMD Ryzen Embedded V1000系列超精巧型嵌入式電腦POC-500、與採用專利 CAP智能電源管理及感測技術,具備9250瓦-秒超級電容的工業級不斷電系統智能管理模組PB-9250J-SA、以及滿足多種應用領域的全系列工業物聯網閘道器IGT系列。
Marvell聚焦基礎建設市場 看好邊緣資料中心潛力
在日前宣布將旗下Wi-Fi/藍牙事業賣給恩智浦(NXP)半導體後,Marvell業務更加聚焦在資料中心等基礎建設領域。在x86架構主導的伺服器市場上,採用ARM架構處理器的伺服器數量仍相當有限,但隨著軟體大廠如紅帽(Red)、微軟(Microsoft)等對ARM架構的支援越來越完整,ARM處理器在伺服器、超級電腦市場上的能見度正在提升。邊緣資料中心更是被Marvell寄予厚望的新市場。
Marvell伺服器處理器事業群副總裁Gopal Hegde表示,如果單就硬體運算效能而言,Marvell旗下專為伺服器應用所設計的ThunderX系列處理器,不僅表現不遜於同等級的x86處理器,甚至在I/O性能、I/O數量、每瓦效能、整體持有成本(TCO)方面,還有過之而無不及。但對伺服器應用來說,除了硬體之外,軟體生態的支持也是關鍵,而這確實是一道需要時間跨越的門檻。
歷經過去數年的沉潛努力,現在已經有越來越多軟體業者看見ARM架構在伺服器市場的發展潛力,進而願意為ARM架構伺服器提供更完善的支援。事實上,跟幾年前相比,現在Marvell在推廣ARM架構伺服器CPU的時候,已經幾乎不必操心軟體問題,因為紅帽、微軟與為數眾多的伺服器應用軟體開發商,已經可以提供適用於ARM運算架構的解決方案。
軟體支援的問題獲得解決,加上Marvell現在的策略更聚焦在伺服器、資料中心、超級電腦等基礎建設市場上,使得Marvell更能專心發展最新的技術。舉例來說,Marvell在幾個月後將會推出ThunderX3處理器,採用台積電的7奈米製程技術,並支援PCIe Gen4。相較之下,目前伺服器所使用的PCIe匯流排,大多還停留在Gen3。至於支援PCIe Gen5跟DDR5記憶體的ThunderX系列處理器,則預定在2021~2022年之間推出。Hegde很有信心地表示,Marvell在產品發展時程上,絕不會落後x86陣營。
除了技術跟產品之外,在應用市場方面,Hegde特別指出,邊緣資料中心將會是對ARM架構特別有利的應用市場,且隨著串流式服務,例如串流遊戲、串流影音大行其道,相關服務業者對邊緣資料中心的需求將會明顯成長。
為何ARM架構比x86架構更適合用在邊緣資料中心?Hegde解釋,因為目前絕大多數用來接收串流服務的用戶端裝置,都是ARM架構的終端,例如智慧型手機、平板電腦。因此,對串流服務供應商來說,在邊緣資料中心採用ARM架構的處理器,在應用服務的相容性方面,是完全不必擔心的。
事實上,目前資料中心以x86處理器為主流,很大的原因之一就在於x86個人電腦(PC)的普及。資料中心跟終端採用同樣的處理器架構,是最不會產生相容性疑慮,也最具經濟效益的選擇,也是許多原本與x86架構在伺服器市場上競爭的其他處理器架構,最後紛紛敗下陣來,轉攻某些利基市場的原因。
Hegde相信,同樣的歷史會在邊緣資料中心領域重演,因為這類資料中心的伺服器要服務的用戶端裝置,大多數不是PC,而是手機、平板乃至各種OTT機上盒。
美光積極布局AI 促進強化邊緣運算
預估全球傳輸、儲存、分析的數據量將於九年內成長十倍,至2023年時將達到103ZB。面對如此龐大的數據量,如何將其轉化為資訊並從中挖掘有用的洞見將是一項難題,而人工智慧(AI)在數據分析的過程扮演要角。美光於2019台北國際電腦展Computex上,表示將積極布局人工智慧領域,並讓運算更靠近邊緣。
美光運算與網路業務部門資深副總裁暨總經理Thomas T. Eby表示,美光本身就是人工智慧應用的最佳案例。透過導入人工智慧至生產廠區,美光得以增加生產良率、促進工作環境安全與提升整體效能。美光引入人工智慧打造智慧製造,所得到的成果包括達到成熟良率的時間縮短25%、提升晶圓產出10%以及不良率減少35%,效果顯著。
同時,Thomas T. Eby也提到,隨著運算越來越異質化,人工智慧在邊緣運算的重要性就更高。以前的資料中心以CPU為中心,現在則趨向異質化,有CPU、GPU、FPGA等等,在邊緣運算已經是大勢所趨。美光提供全面的解決方案,讓運算更靠近記憶體,甚至在記憶體中運算,以配合現在資料中心的需求。
Thomas T. Eby進一步指出,根據美光委託Forrester訪問建構人工智慧平台的工程師和IT專家的結果顯示,開發人工智慧系統時,首要考量並非運算,而是如何打造記憶體與儲存架構以滿足龐大運算需求。報告中有超過九成的受訪者表示,記憶體與儲存架構攸關開發人工智慧系統的成敗,儲存與記憶體吞吐量的重要性更勝於運算,且運算與記憶體間的距離越來越近。
在自駕車的記憶體需求方面,Thomas T. Eby也表示,未來每輛L5級自駕車,將會配置8~12個解析度高達4K~8K的顯示螢幕,而為了支援V2X 連結,記憶體每秒需處理0.5~1 TB的數據量,在車內娛樂系統方面,記憶體頻寬需求每秒也將達150~300 GB。未來自駕車將會像飛機一樣有黑盒子,以每30秒持續錄製片段,紀錄車內外狀況,因此記憶體頻寬需求每秒也達到1 GB。此外,在車輛生命週期中,會重複寫入的數據加起來將有150 PB(Petabyte),所以對記憶體與儲存的效能與耐用性要求會特別高。
搶攻邊緣運算市場 耐能新款AI晶片亮相
人工智慧(AI)已成為全球科技產業的下一個兵家必爭之地,為搶攻邊緣運算市場,耐能近日發表首款名為「KL520」的AI晶片系列,將神經網路處理器的功耗降至數百mW等級,為各種終端硬體提供高效靈活的AI功能。
耐能創始人兼執行長劉峻誠於發布會上提出「Edge AI Net」的概念,他表示,透過新推出的KL520晶片,期能夠將生命賦予終端設備,實現去中心化、離線本地處理、主動智慧等目標;而耐能也因此成功實現AI在雲端及離線終端上的互補,完成從提供IP到AI晶片的新里程碑,開啟AI應用於不同層面的更多可能性。
據悉,新推出的KL520晶片,具備「可重組式人工智慧神經網路技術」,會根據不同任務進行重組,減少運算複雜度,保證在不同的卷積神經網路(CNN)模型上的使用,無論是模型內核(Kernel)大小的變化、模型規模的變化,還是影像輸入大小的變化,都能保持高效率使用運算(MAC)單元。
此外,該產品也可滿足高效運算需求,其數據格式按運算需求靈活調整,致使在計算過程中實現更高的「數據計算vs.數據讀寫」比例,減少記憶體數據搬運的能量耗損。同時,透過耐能模型壓縮技術可有效減小模型大小,大幅降低在終端部署時的儲存成本,也大幅降低了記憶體頻寬的需求,並可提供較為通用,可同時支持語音及2D、3D影像的AI需求。
KL520晶片其餘特色還包括:低功耗(平均功耗僅300~500mW)、體積小;算力最高可達350GOPS,可作為協處理器使用,增加系統端的AI運算能力,毋須更換主晶片,即可快速於系統端導入智慧應用;適用於結構光、雙目視覺、ToF及耐能自主開發的輕量級3D感測技術等。
目前該晶片甫推出便獲得多家合作夥伴採用,包含鈺創科技、鈺立微電子、奇景光電、研揚科技、全科科技、和碩科技等。劉峻誠透露,未來將持續與戰略伙伴合作,落實產業應用,而2019年第四季還會推出用於智慧安防市場的第二款AI晶片。
乘深度/機器學習浪潮 AI智慧監控應用興
根據市場研究機構Marketsandmarkets指出,影像監控的市場產值,將以每年13.1%複合成長率的速度成長,從2018年的368.9億美元,成長至2023年的683.4億美元。而機器學習(ML)與深度學習(Deep Learning)等AI技術,更將是提升監控系統效能,使其實現更多應用的最大關鍵。
邊緣監控應用起 晶片運算需求增
機器學習可被訓練,以識別模式、形狀、顏色、聲音、振動、溫度以及壓力等細微差別和差異,這對於即時檢測和識別十分重要,使得臉部辨識應用日益完善,以進行高級識別、驗證、搜索、預防和救援。至於深度學習,透過大量的監控影像和訓練之後,搭載深度學習的監控系統便可有效的進行對象和行為模式分析,進而提供更有效的數據。而隨著機器學習、深度學習等AI技術興起之後,AI監控應用也隨之浮現。
國立交通大學資訊工程學系教授兼網路研究所所長易志偉(圖1)表示,AI技術(如深度學習)的優勢在於,可降低影像處理的門檻,使得影像資料分析不再是一件複雜的工作,進而依此衍生出更多創新的應用,例如無人商店的AI監控應用便是其中一個例子。
圖1 國立交通大學資訊工程學系教授兼網路研究所所長易志偉表示,深度學習減低影像處理複雜度,得以實現各種影像創新應用。
易志偉說明,像是7-11所推出的X-Store,有著自助結帳櫃檯,需要先透過臉部辨識系統確認個人身分後,再以icash2.0靠卡付款;而在進入商店時也需透過臉部辨識系統建立會員。當然,除了無人商店外,智慧監控還可應用在許多地方,例如透過攝影機錄下羽球選手各個動作,像擊球、腳步移動、球的落點位置等,再進行資料分析,以提升選手的訓練效率。
賽靈思全球人工智慧解決方案市場行銷總監劉競秀(圖2)指出,到了行動物聯網時代,聯網設備的數量將大幅超過人口數量;而隨著AI興起,未來勢將走向AI+IoT的趨勢,像是智慧監控攝影機、自動駕駛汽車、智慧音箱、智慧家電等。換言之,日後這些設備將具備一定的運算能力,使其能透過本地推論、訓練,做出更準確的分析以改變人類日常生活。
圖2 賽靈思全球人工智慧解決方案市場行銷總監劉競秀指出,如何研發靈活、高效,且高性價比的AI解決方案是目前各大AI晶片供應商共同努力的方向。
劉競秀說明,不過,要實現AIoT的挑戰在於不同的應用場景需要不同的運算效能。例如自駕車需要在很短時間內對周遭環境進行檢測並做出判斷,這時候晶片的運算效能及資訊傳輸就必須相當迅速;然而,若是網路監控攝影機的話,由於其需長時間運作,進行長期監控,其對晶片的要求除了具備一定的運算能力外,還需要低功耗,避免過熱當機。
劉競秀指出,也因此,如何針對不同的應用場景提供靈活、高效,且高性價比的AI解決方案,是目前AI晶片供應業者致力發展的方向;而賽靈思便透過靈活性較高的FPGA協助產業盡速導入AI,實現更智慧的應用。例如賽靈思所推出的自行調適運算加速平台「ACAP」,能針對各種應用與工作負載需求,從硬體層面進行靈活變化。
據悉,在ACAP核心內有個全新世代的FPGA架構,其結合分散式記憶體與硬體可編程DSP模組、一顆多核心SoC,以及一個或多個軟體可編程且硬體自行調適的運算引擎,上述元件皆透過網路晶片(NoC)串連。此外,ACAP具高度整合的可編程I/O功能,依據不同元件類型,其功能涵蓋整合的硬體可編程記憶體控制器、先進的串列器技術、具領導地位的邊緣RF-ADC/DAC,到整合的高階頻寬記憶體(HBM)。
除了ACAP之外,賽靈思還具有DNNDK(Deep Neural Network Development Kit),其為深鑒科技所研發的AI異構計算平台DPU。
透過自主研發的原創深度學習SDK,涵蓋了神經網路Inference階段模型壓縮、編譯優化和高效運行時支持等各種功能需求,為深度學習應用開發和部署提供一套高效的解決方案。
耐能智慧(Kneron)產品行銷暨應用協理史亞倫(圖3)則指出,AI從雲端走到邊緣裝置的趨勢十分明顯,終端裝置有了AI運算能力之後,再跟雲端搭配,可以降低資料傳輸、運算分析的延遲性,不僅可實現更多創新應用,還可降低終端裝置與雲端間的連網布建成本。
圖3 耐能智慧產品行銷暨應用協理史亞倫透露,智慧監控開始從雲端走向終端,裝置中的處理器除須有高效能外,同時也須符合功耗和成本考量,為此,耐能採用NPU解決方案。
因應智慧監控需求,耐能備有新一代終端AI處理器系列NPU IP,其分為超低功耗版KDP 320、標準版KDP 520,以及高效能版KDP 720。此一處理器整體運算效能相較上一代產品提升三倍,運算能力(Peak Throughput)最高可達5.8 TOPS(每秒萬億次運算)。
據悉,新系列產品特色包括交錯式運算架構,讓神經網路架構中主要的卷積(Convolution)與池化(Pooling)運算可平行進行,提升整體運算效率;深度壓縮技術,可執行模型和運行中的資料和參數(Coefficient)進行壓縮,減少記憶體使用;動態儲存資源配置,讓共享記憶體(Shared Memory)和運作記憶體(Operating Memory)之間可以進行更有效的資源配置,提升儲存資源利用率且不影響運算效能;以及支援更廣泛的CNN模型。
史亞倫說明,邊緣運算應用十分多元,以智慧監控而言,不論是零售、交通、商業建築、安防等都會用到,且在各個領域中又細分無數個應用場景;有的需要精準人臉辨識,有的只須進行簡單車牌識別。因此,並非每個應用場景都須採用頂級、具超高運算能力的CPU、GPU或是DSP,否則會不符成本需求。
史亞倫進一步說明,因此,該公司便決定打造低功耗的NPU處理器。原因在於NPU處理器可說是專為深度學習設計,十分適合AI神經網路運算,並且有更多設計彈性。另外,有了低功耗、成本相對較低,同時還能進行邊緣AI應用的NPU晶片後,可讓市場有更多選擇,滿足對成本有較多考量的業者。
物聯網設備大增 資安防護不可少
物聯網和AI的興起,帶動許多創新應用興起,AI監控便是其中一例。然而,在使用AI監控提升安防效率之時,如何確保AI設備的資安,使其不被駭客竊取機密的資料,也十分重要。
台灣資通產業標準協會(TAICS)網路與資訊安全技術工作委員會技術長劉作仁(圖4)表示,物聯網應用和雲端息息相關,就連AI監控也不例外。使用者的裝置可以透過連線的方式,在雲端與終端裝置之間下載、上傳資料;而在這資料傳輸的過程之中,要如何實現完善的加密保護,是目前物聯網發展的重點。
圖4 TAICS網路與資訊安全技術工作委員會技術長劉作仁說明,物聯網應用和雲端息息相關,在資料傳輸的過程中,完善的加密保護可說相當重要。
為此,TAICS推動物聯網資安認驗證制度,期能落實各類型物聯網資安測試規範,推行物聯網產品與設備商落實資安檢測;並透過推動物聯網資安驗證制度,強化物聯網安全;最後則是建立物聯網資安標章制度,使消費者易於識別通過本資安驗證制度檢測之物聯網設備。
據悉,此一制度將先以與個人隱私息息相關的有線/無線網路攝影機為主,後續將會陸續針對其它各種物聯網設備。TAICS指出,物聯網盛行,使日常用品皆朝向數位化邁進,影像監控設備也是其中之一,但網路攻擊事件也隨之而來。有鑑於此,經濟部工業局與TAICS共同制定一系列針對影像監控系統中聯網設備之資安標準及測驗規範。
專訪AMD嵌入式解決方案業務發展總監Stephen Turnbull AMD新SoC搶市布局邊緣運算
AMD嵌入式解決方案事業群產品管理與業務發展總監Stephen Turnbull表示,現在人們對數據傳輸的依賴越來越高,舉例來說,在臉書上每小時就有400小時的影片上傳量,加上5G的商用、生物辨識應用等等,需要在邊緣進行更多運算、更智慧化。
AMD Ryzen R1000嵌入式處理器能支援各種類型的多媒體環境,包括博弈機台、數位顯示器、邊緣運算的企業級安全功能、聯網與精簡型電腦裝置,同時提供軟硬體的相容性。
另外,Turnbull也提到,目前安全性的問題備受重視,AMD Ryzen R1000嵌入式處理器擁有企業等級的安全性,其中包括安全信任根(Secure Root of Trust)及安全運行技術(Secure Run Technology),藉由這些功能,在使用者連至邊緣運算網路或運行數位螢幕時,可以打造各種更加安全的解決方案。
AMD Ryzen R1000嵌入式處理器擴展了Ryzen嵌入式產品陣容,以開發各種高效能低功耗解決方案。目前研華(Advantech)、東擎科技(ASRock Industrial Computer)、廣積(IBASE)、Netnorome、鼎通盛(Quixant)等廠商已著手開發搭載AMD Ryzen R1000嵌入式SoC的產品。此外,雅達利(Atari)正運用AMD Ryzen R1000嵌入式處理器搭載的高效能Vega3繪圖核心及Zen處理器架構打造即將問世的Atari VCS遊戲系統。
另外,由於嵌入式產業要求更沉浸式、更具吸引力的視覺體驗,支援高解析度螢幕以處理繁重運算圖像資料的處理器需求便也跟著提高。AMD新推出的嵌入式處理器能支援三台更新率達60FPS的4K螢幕,且提供H.265編碼/解碼(10b)與VP9解碼功能,讓OEM與ODM廠商打造優良的視覺環境。
AMD嵌入式解決方案業務發展總監Stephen Turnbull表示,AMD Ryzen R1000能開發各種高效能低功耗解決方案。
布局邊緣運算市場 AMD推新SoC擴展嵌入式產品陣容
隨著社群網站的蓬勃發展、5G商用化的來臨以及人工智慧的應用愈加多元,數據傳輸速度的需求也更高。對此,AMD宣布擴大Ryzen嵌入式產品陣容,推出全新AMD Ryzen R1000嵌入式處理器。
AMD嵌入式解決方案事業群產品管理與業務發展總監Stephen Turnbull表示,現在人們對數據傳輸的依賴越來越高,舉例來說,在臉書上每小時就有400小時的影片上傳量,加上5G的商用、生物辨識應用等等,需要在邊緣近行更多運算、更智慧化。AMD Ryzen R1000嵌入式處理器能支援各種類型的多媒體環境,包括博弈機台、數位顯示器、邊緣運算的企業級安全功能、聯網與精簡型電腦裝置,同時提供軟硬體的相容性。
另外,Turnbull也提到,目前安全性的問題備受重視,AMD Ryzen R1000嵌入式處理器擁有企業等級的安全性,其中包括安全信任根(Secure Root of Trust)以及安全運行技術(Secure Run Technology),藉由這些功能,在連至邊緣運算網路或運型數位螢幕時,可以打造各種安全解決方案。
AMD Ryzen R1000嵌入式處理器擴展了Ryzen嵌入式產品陣容,以開發各種高效能低功耗解決方案。目前研華(Advantech)、東擎科技(ASRock Industrial Computer Corp.)、廣積(IBASE)、Netnorome、鼎通盛(Quixant)等廠商已著手開發搭載AMD Ryzen R1000嵌入式處理器的產品。
此外,由於嵌入式產業要求更沉浸式、更具吸引力的視覺體驗,支援高解析度螢幕以處理繁重運算圖像資料的處理器需求也跟著提高。新推出的嵌入式處理器能支援3台更新率達60FPS的4K螢幕,且提供H.265編碼/解碼(10b)與VP9解碼功能,讓OEM與ODM廠商打造優良的視覺環境。
Wave Computing再推TritonAI 64平台 布局邊緣AI應用市場
Wave Computing積極布局人工智慧(AI)和邊緣運算(Edge Computing)。繼之前日前宣布即將開放MIPS架構(ISA),供全球半導體企業、開發人員及大學開發新一代的系統單晶片(SoC)外,該公司於近期宣布推出全新TritonAI 64平台,讓使用者可透過單一平台就能用因應各種AI應用案例;同時,該平台提供高效的邊緣推理和訓練效能,以支持當今的AI演算法,同時為使用者提供未來所需的靈活性,確保其對AI演算法的投資。
Wave Computing首席執行長Derek Meyer表示,AI邊緣應用案例正迅速的成長,因而加劇系統單晶片(SoC)設計人員的挑戰。然而,傳統的IP產品並非專為AI設計,為此,該公司推出全新的AI平台TritonAI 64,實現AI邊緣應用的所需的推理和訓練,以支援現今和未來的AI應用;同時,TritonAI 64的推出是繼2018年收購MIPS的另一個里程碑,因其增強了該公司從數據中心到邊緣裝置的AI產品線。
根據技術分析公司Tractica研究指出,到了2025年,人工智慧產品全球市場規模將超過170億美元;而AI邊緣應用的潛在市場範圍(Total Addressable Market)則超過1億美元,成長的因素來自於對於更高效能的推理運算、訓練及AI工作負載日益增加。
而Wave Computing所發布的TritonAI 64,將讓使用者可透過單一平台因應各種AI使用案例。此一平台的特性包括具備MIPS 64位元SIMD引擎,此一引擎可與Wave獨有資料流程圖(Dataflow)和以張量為基礎(Tensor-based)的可配置技術(Configurable Technology)相結合,以及MIPS整合開發環境(IDE)和基於Linux的TensorFlow編程環境。
AI應用水漲船高 FPGA邊緣運算完美達陣
然而AI應用種類各異,各有千秋。不同的應用領域要求的AI技術也不盡相同。目前最受關注的應用類別當屬嵌入式視覺。這一領域的AI使用所謂的卷積神經網路(CNN),試圖類比人眼的運作方式。在本文中,將探討電腦視覺(Computer Vision)應用與其他許多相關概念。
網路終端AI的要求
AI涉及創造一個工作流程的訓練模型,然後該模型在某個應用中對現實世界的情況進行推理。因此,AI應用有兩個主要的階段:訓練和推理。
訓練是在開發過程中完成的,通常在雲端進行。推理作為一項持續進行的活動,則是透過部署的設備完成。因為推理涉及的運算問題相對複雜,目前大部分都是在雲端進行,但是做決策的時間通常都十分有限。向雲端傳輸資料然後等待雲端做出決策非常耗時,等到做出決策,可能為時已晚,而在終端做決策則能節省寶貴的幾秒鐘時間。
這種即時控制的需求適用於需要快速做出決策的諸多領域。例如人員偵測相關應用,包括:智慧家庭電器、智慧音訊/影視消費性電子產品、智慧門鈴、自動販賣機、安全攝影機、智慧門等。其他即時線上的應用包括:智慧音箱、零售店攝影機、無人機、收費站攝影機、機器視覺、汽車後裝市場攝影機等。
在快速決策需求的推動下,目前將推理過程從雲端轉移到「網路終端」的訴求非常強烈,即在設備上收集資料然後根據AI決策採取行動。這將解決雲端不可避免的延遲問題。在地化推理還有兩個好處:第一個就是隱私安全。資料從雲端來回傳輸以及儲存在雲端,容易被入侵和盜取。但如果資料從未到達設備以外的地方,出現問題的機率就小得多。
另一個好處與網路頻寬有關。將視訊傳送到雲端進行即時處理會占用大量的頻寬。而在地做決策則能省下這部分頻寬,並將其用於其他要求較高的任務。此外,這類設備通常都是使用電池供電,如果是電源直接供電,兩者都有散熱限制,而對設備的持續使用造成限制。而與雲端通訊的設備則需要管理自身功耗的散熱問題。AI模型演化速度極快。在訓練始末,模型的大小會有極大差異,並且在進入開發階段以前,可能無法有效估算所需運算平台的大小。此外,訓練過程發生的細微改變都會對整個模型造成重大影響,增加了變數,這些也使得網路終端設備硬體大小的估計變得極為困難。
在為特定設備優化模型的過程中,始終伴隨著權衡。這意味著模型在不同的設備中可能以不同的方式運行。最後,網路終端中的設備通常非常小,也限制了AI推理設備的大小。
由此總結出以下關於網路終端推理的幾點重點要求:
用於網路終端AI推理的引擎必須:
.功耗低
.靈活
.可擴展
.尺寸小
已有廠商開發出完全具備以上四個特徵的推理引擎。包含硬體平台、軟體IP、神經網路編譯器、開發模組和開發資源,能夠迅速開發理想中的設計。
推理引擎的選擇
將推理引擎構建到網路終端設備中涉及兩個方面:開發承載模型運行的硬體平台以及開發模型本身。理論上來說,模型可以在許多不同的架構上運行。但若要在網路終端,尤其是在即時線上的應用中運行模型,選擇就變少了,因為要考慮到之前提到的功耗、靈活性和擴充性等要求。
設計AI模型的最常見做法就是使用處理器,可能是GPU或者DSP,也有可能是微控制器。但是網路終端設備上的處理器可能就連實現簡單的模型也無法處理。這樣的設備可能只有低階的微控制器(MCU)。而使用較大的處理器可能會違反設備的功耗和成本要求,因此對於此類設備而言,AI似乎難以實現。
這正是低功耗FPGA發揮作用的地方。與強化處理器來處理演算法的方式不同,低功耗FPGA可以作為MCU的副處理器(圖1),處理MCU無法解決的複雜任務之餘,將功耗保持在要求範圍內。由於低功耗FPGA能夠進行DSP運算,並能提供低階MCU不具備的運算能力。
圖1 FPGA作為MCU的副處理器
ASICs和特定應用標準產品(ASSP)對於更為成熟、大批量銷售的AI模型而言,採用ASIC或ASSP或許是可行之道。但是由於工作負載較大,這些元件在即時線上應用中的功耗太大。在此情況下,低功耗FPGA可以充當副處理器(圖2),處理包括喚醒關鍵字的喚醒程序或粗略識別某些影片圖像(如識別與人形相似的物體),然後才喚醒ASIC或ASSP,識別更多語音或者確定影像中的目標確實是一個人(或甚至可以識別特定的人)。FPGA處理即時線上的部分,這部分的功耗至關重要。然而並非所有的FPGA都能勝任這一角色,因為絕大多數FPGA功耗仍然太高。
圖2 FPGA作為ASIC/ASSP的副處理器
低功耗FPGA可以作為單獨運行的、完整的AI引擎(圖3),FPGA中的DSP在這裡起了關鍵作用。即便網路終端設備沒有其他的運算資源,也可以在不超出功耗、成本或電路板尺寸預算的情況下添加AI功能。此外它們還擁有支援快速演進演算法所需的靈活性和可擴充性。
圖3 單獨使用FPGA的整合解決方案
低功耗FPGA構建推理引擎
設計AI推理模型的硬體需要不斷平衡所需資源數量與效能和功率要求,萊迪思的ECP5和UltraPlus產品系列能實現這類要求。ECP5系列有三種不同規格的元件,能夠運行一到八個推理引擎。其整合的的嵌入式記憶體從1Mb到3.7Mb不等。功耗最高僅為1W,尺寸也只有100mm2。相較之下,UltraPlus系列的功耗水準約為ECP5系列的千分之一,僅為1mW。占用的電路板面積為5.5mm2,包括最多八個乘法器和最多1Mb的嵌入式記憶體。
萊迪思還提供可在這些元件上運行的CNN IP以及可用於ECP5系列的CNN加速器(圖4),與可用於UltraPlus系列的輕量化CNN加速器(圖5)。
圖4 適用於ECP5系列的CNN加速器
圖5 適用於UltraPlus系列的輕量化CNN加速器
最後,還可以在開發模組(圖6)上運行並測試這些演示,兩個模組分別對應這兩種產品系列。Himax HM01B0 UPduino Shield採用了一片UltraPlus FPGA,尺寸為22×50mm2。嵌入式視覺開發套件採用了一片ECP5 FPGA,尺寸為80×80mm2。有了FPGA、軟IP和其他處理資料所需的硬體部分,就可以使用設計工具進行編譯,而生成位流,在每次上電後對目標設備中的FPGA進行配置。3
圖6 評估AI應用的開發模組
在FPGA上構建推理模型
創建推理模型與創建底層運行平台大不相同。它更抽象,涉及更多運算,且不涉及RTL設計。這一過程主要有兩個步驟:創建抽象模型,然後根據所選平台優化模型的實現。模型訓練在專門為此過程設計的框架(圖7)中進行。最流行的兩個框架是Caffe和TensorFlow,但不限於此。
圖7 可以對單個模型進行優化以適用於不同的設備
CNN由很多層構成—卷積層,還有池化層和全連接層,每一層都有由前一層的結果饋送的節點。每個結果都在每個節點處加權重,權重多少則由訓練過程決定。訓練框架輸出的權重通常是浮點數。這是權重最為精確的體現,然而大多數網路終端設備不具備浮點運算功能。這時需要針對特定平台對抽象模型進行優化,這項工作由神經網路編譯器負責。編譯器可以實現載入和查看從某個CNN框架下載的原始模型。可以運行效能分析,這對模型優化最關鍵的量化工作至關重要。
由於無法處理浮點數,因此需要將它們轉換為整數。對浮點數四捨五入也就意味著精度會降低。問題是,什麼樣的整數精度才能滿足想要的精度?通常使用的最高精度為16位元,但是權重和輸入可以表示為較小的整數。1位元的設計實際是在一位整數域中進行訓練以保持精度。顯然,更小的資料單元意味著效能更高、硬體尺寸更小以及功耗更低。但是,精度太低就無法準確地推斷視野中的物體。
神經網路編譯器能創建代表模型的指令流,然後可以類比或直接測試這些指令,而判斷在效能、功耗和精度之間是否達到了適度的平衡。測試的標準通常是看一組測試圖像(與訓練圖像不同)中正確處理的圖像百分比。通常可以透過優化模型來優化運行,包括去掉一些節點以減少資源消耗,然後重新訓練模型。這一設計環節可以微調精度,同時保證能在有限的資源下順利運行。
人臉辨識與人員偵測
在以下兩個不同的視覺案例中,將看到權衡是如何發揮作用的。第一個應用是人臉辨識;第二個是人員偵測。將指出不同FPGA之間存在的資源差異如何影響到相對應的應用效能和功耗。兩個示例的輸入都源自同一個攝影機,兩者都在相同的底層引擎架構中運行。在UltraPlus設計實例中(圖8),圖像的尺寸縮小後通過八個乘法器進行處理,利用了內部記億體並使用了LED指示燈。
圖8 UltraPlus平台用於人臉辨識和人員偵測應用
ECP5系列資源更多,提供了一個計算能力更強的平台(圖9)。攝影機捕捉的圖像在發送到CNN之前在圖像訊號處理器(ISP)中進行預處理。處理結果與原始圖像在標記引擎上比對,而將文本或注釋覆蓋在原始圖像上。並可以使用一系列圖表來衡量兩種應用的效能、功耗和占用面積情況。對於每個應用,兩組示例分別表示:一組輸入較少,一組輸入較多。圖10表示了人臉辨識應用的結果,兩組分別採用了32×32輸入和90×90輸入的情況。
圖9 ECP5平台用於人臉辨識和人員偵測應用
圖10 在UltraPlus和ECP5 FPGA上實現簡單和複雜的人臉辨識應用時的效能、功耗和占用面積。
左側的軸代表處理一張圖片需要的週期數量以及這些週期的分配情況。右側的軸代表在各元件(黑線)上實現的每秒幀數(fps)。最後,每種情況下還標注了功耗和占用面積。左側的32×32輸入示例中,最下方部分代表卷積層上運行的週期。在四個示例中,UltraPlus的乘法器數量最少;其他三片ECP5 FPGA的乘法器數量依次遞增。隨著乘法器數量的增加,卷積層所需的週期數減少。
90×90輸入的示例位於右側,得到的結果完全不同。在每個直條圖的底部有大面積的區域。這是由於設計更為複雜,使用了除元件內部儲存空間以外的更多記憶體。由於需要占用外部DRAM,效能就有所損失。需要注意的是,這種設計無法使用較小的UltraPlus元件。人員偵測應用的情況類似。兩組分別採用了64×64輸入和128×128輸入的情況(圖11)。
圖11 在UltraPlus和ECP5 FPGA上實現簡單和複雜的人員偵測應用時的效能、功耗和占用面積
同樣,較多的乘法器會減少卷積層的負擔,而依賴DRAM則會影響效能。表1總結了各類情形下的效能。它包括了對圖像中最小可識別物件或特徵的度量,用視野範圍的百分比表示。在這裡使用更多輸入能夠為較小的目標提供更多解析度。
低功耗FPGA可實現要求低功耗、具有靈活性和可擴充性的網路終端AI推理設計。並提供成功部署AI演算法所需的關鍵要素,包括:神經網路編譯器、神經引擎軟IP、Diamond設計軟體、開發板與參考設計等。