GPU
工業+AI發展潛力大 訓練資料集建置仍為瓶頸
然而,對製造業應用而言,目前以雲端資料中心為基礎的人工智慧,通常是不符合需求的。在生產現場,絕大多數的控制命令跟判斷,都有很強的即時性,如果要把資料上傳到雲端,在雲端進行推論,再從雲端向現場機台下達控制命令,在時效上往往拖延太久。因此,直接在網路邊緣節點進行推論,將是面向工業應用的人工智慧所實行的主流架構,也就是俗稱的邊緣運算或AIoT(AI+IoT)。
這也使得有意進軍工業市場的人工智慧晶片業者,諸如NVIDIA、英特爾(Intel)與賽靈思(Xilinx)等,紛紛推出低功耗、低成本,適合部署於生產現場的晶片解決方案,如NVIDIA的Jetson TX系列、英特爾的Movidius系列、Cyclone/Stratix FPGA,以及賽靈思的Zynq 7000與部分Zynq UltraScale+系列晶片,都可讓部署在現場的嵌入式設備直接進行推論。這三家領導晶片所提供晶片方案,也正好代表了AI運算晶片的三大流派--GPU、ASIC與FPGA,在應用開發上各自有其優勢與限制。
GPU應用開發速度最快 開發工具/IP限制卻不少
對人工智慧應用的開發者來說,GPU是用來快速創建原型跟驗證設計概念的不二選擇。因為開發者只需要撰寫程式碼、甚至直接套用開發工具裡面的現成模型,稍微調整一下參數,就可以讓GPU開始進行訓練跟推理。因此,在應用開發的早期階段,GPU是目前最理想的選擇。
然而,GPU的成本高,功耗也偏高,是許多工業設備製造商在AI軟體發展完成,設備準備量產時,繼續沿用GPU做為系統核心的主要疑慮所在。GPU的散熱對於在工業環境下運作的嵌入式設備,是一個很大的問題。工業環境的溫度變化大,且現場往往沒有空調設備。如果環境的背景溫度本身就偏高,在這個情況下,採用被動式散熱的效果將大打折扣。
採用主動式散熱,例如散熱風扇,則意味著設備的機構設計可能需要保留開口,這會對設備的防水防塵能力造成負面影響。此外,某些工業環境中還有大量粉塵存在,如果設備內有風扇,不僅容易故障,還有引發粉塵爆炸的風險。
也因為上述種種環境條件的限制,GPU若想應用在工業設備上,低功耗是最重要的規格。散熱功耗(Thermal Power Dissapation, TPD)低於10瓦是設備得以採用被動式散熱的基本門檻,但如果能做到更低,工業設備採用GPU的疑慮也會跟著減少。這也是NVIDIA的第一代Jetson TX將功耗定在10瓦,並將新推出的Jetson TX2(圖1)功耗進一步壓低到7.5瓦的主要原因。
圖1 GPU的散熱問題是嵌入式應用開發商在選用GPU時最主要的疑慮之一。
除了功耗跟散熱問題外,GPU廠商的開發工具、參考設計跟協力廠商軟體資源雖然已經相當完整,但如果設備製造商想在這個基礎上進行客製化開發,還有智財(IP)方面的問題必須克服。有業界人士指出,跟NVIDIA合作,會受到很多限制。該公司提供的模型跟演算法資源相當豐富,也有為數眾多的協力廠商夥伴,但這些資源的智財權均控制在NVIDIA及其合作夥伴手上,如果要在產品上使用這些演算法,除了有可能需要額外支付權利金,NVIDIA對晶片的用途管控也相當嚴格。
另外,工業設備所使用的演算法跟模型,如果需要客製化調整,也可能需要跟演算法的開發者或GPU供應商進一步洽談,設備供應商不能自行隨意修改,這也是另一個潛在的成本來源,可能需要額外支付更高的權利金,或是耗費更多時間。
不過,倘若功耗跟智財都不成問題,對工業設備開發商來說,直接在設備上使用GPU,是最快將產品推向市場的途徑,因為產品從開發到最終量產使用的是同一個平台、同一套源碼,相容性基本上可以保證,不用擔心原本在GPU上開發的軟體,換到FPGA或ASIC之後會出現相容性問題。
ASIC算力/功耗比最優 演算法綁定不利發展多樣化應用
自從人工智慧浪潮興起後,許多IC設計公司都推出神經網路處理器(NPU)或ASIC加速器,想分食人工智慧應用的市場大餅。這些專為某些特定演算法或模型提供加速的晶片,在執行對應演算法的時候,有非常高的能源效率,功耗5瓦、甚至2瓦以下的解決方案都已經出現在市面上,為人工智慧應用的普及做出重要貢獻。
不過,也因為這類NPU或ASIC加速器只專門針對特定演算法或模型做優化,因此其泛用性很低。如果工業設備製造商對演算法或模型的更動幅度較大,甚至想套用自己發展出來的演算法,在這類平台上不是執行效果不佳,就是根本無法執行。
舉例來說,目前這類泛ASIC解決方案,最主要的應用市場是安全監控領域(圖2),例如人流偵測、人臉識別,或是對敏感區域劃設虛擬圍籬等。但對工業應用來說,這些方案除了適用于廠區的安全監控系統之外,像是生產線上的產品檢測、引導機器手臂作業等典型的機器視覺應用,很難採用這類ASIC方案來實現。至於微電子、半導體等級的自動光學檢測,這些ASIC方案就更難派上用場了。
圖2 安全監控的市場規模龐大,吸引眾多ASIC廠商為其開發AI演算法加速器方案。
對IC設計業者而言,針對少量多樣的工業市場開發ASIC產品,成本效益是最大的難題。因此,晶片業者的發展策略必然是利用安防產業所創造的經濟規模,向外拓展出部分工業或產業用嵌入式設備的應用市場。
近期英特爾跟IC設計新創公司耐能(Kneron),都分別與工業電腦業者結盟,試圖將NPU與加速器推進智慧零售應用,因為智慧零售的需求跟安防基本上相通,不需要太大幅度的設計修改。但有工業電腦業者認為,在未來三到五年內,NPU或ASIC加速器方案在產業領域的應用,大概也只會到這裡為止,要進一步跨入變異性更高的工業應用,機會應該不大。
FPGA限制最少 考驗設備商IC設計功力
過去幾年,有鑒於人工智慧需求興起,FPGA業者在自家開發工具跟協力廠商生態系夥伴的建構上投入不少心力,成果也陸續展現。在資料中心端,利用FPGA來加速神經網路或深度學習演算法,已經是很多網路巨擘所實行的作法,因此,FPGA廠商自然也將下一步發展重心放到邊緣運算上。
對工業應用來說,FPGA是個很理想的選擇。由於工業應用向來是個少量多樣的市場,很難期待晶片供應商針對工業設備業者的需求,推出對應的晶片解決方案。也因為這個緣故,某些研發實力較強的工業設備業者,一直都是靠FPGA來實現自己所需要的晶片功能。最典型的例子就是高階的運動控制設備,或是某些需要大量I/O的控制器。
而在人工智慧從雲端走向邊緣的過程中,工業設備製造商自然不會忽視用FPGA來實現人工智慧這個選項。且在FPGA業者陸續推出機器學習開發環境,協力廠商業者的軟體智財也逐漸到位後,利用FPGA在嵌入式裝置上執行人工智慧應用,困難度已經相對降低。不過,就和利用GPU平台上的協力廠商資源一樣,設備開發商如果要使用協力廠商開發的演算法,通常會有額外的授權費用產生。
FPGA最大的優勢在於硬體功能的配置非常彈性,如果工業設備開發商已經有自己的人工智慧演算法,開發團隊可以利用FPGA實現對應的硬體加速器,達到最高程度的系統設計優化。但相對來說,當軟體設計有所更動時,硬體可能也需要做對應的調整,而這個時間是相對耗時的。
事實上,要把FPGA的潛力發揮到淋漓盡致,開發團隊必須相當熟悉積體電路的設計作業,諸如電路合成、時序收斂、繞線佈局等。雖然FPGA供應商的開發工具多半已經可以將相關作業自動化,但要進一步將設計優化,設計人員還是需要具備相關知識,而且為了因應軟體設計反覆運算,硬體也要跟著頻繁反覆運算,這是很花時間的。
因此,比較理想的開發流程還是先從GPU開始,等軟體設計反覆運算到相對穩定的階段,再針對已經穩定的軟體做對應的硬體加速設計。而非直接從一開始就用FPGA平台做軟硬體同步開發。
訓練資料集建置不易 AI走進工業應用還需醞釀
雖然各晶片大廠對於人工智慧走向邊緣的發展趨勢都有很高的期待,並已推出對應的邊緣運算解決方案,但對工業應用來說,最麻煩的問題不是缺乏硬體或演算法,而是缺乏訓練用的資料集。
不像一般針對消費性或安防領域的人工智慧應用開發商,可以用低廉的人力成本找來大量資料標籤員,快速完成訓練資料集的建置。工業用的人工智慧應用處理的是各種專業領域的資料,一般人無法判讀這些資料。
以藉由機器視覺來檢視金屬加工件這項應用為例,工業相機可以輕而易舉地取得成千上萬張金屬加工件的影像,但這些影像對一般人來說看起來都差不多,只有業內專家能夠看出其中的些微差異,進而區別出良品跟不良品。
高品質的訓練資料集才能確保人工智慧判斷的準確性,但工業領域的高品質資料集不容易建置,是目前工業設備業者、乃至有心導入人工智慧的製造業者所共同面臨的問題。而且,由於這些資料往往涉及營業秘密,因此只能用內部有限的專家人力來建置資料集,無法外包給外部專家,這使得資料集的建置工作需要耗費更長的時間。
綜合多家國際工業設備巨擘與大型製造業者的觀點,即便目前人工智慧軟硬體方案已經比過去成熟許多,但相關廠家現階段大多還停留在研發前期或中期階段,僅有少數動作比較快的業者,已經開始在實驗產線上進行測試。因此,工業領域普遍導入人工智慧,可能還需要2~3年時間醞釀。
宸曜科技展出超過15項新品與七大主題
宸曜科技(Neousys Technology)於Computex 2019以整合強固寬溫與設計美學的嵌入式電腦專家的主軸,展出了GPU人工智慧邊緣運算、機器視覺解決方案、擁有專利的超級電容不斷電系統、強固級寬溫嵌入式系統、工業物聯網閘道器、I/O擴充模組以及車載與監控應用之嵌入式系統等,並有多達十五項新品一次性登場,更有業界首款搭載兩張GPU顯示卡之人工智慧平台首次亮相。
暨百度阿波羅(Apollo)開源自動駕駛計畫採用宸曜科技Nuvo-6108GC之後,宸曜科技強勢推出全球首款兼具工業電腦和車載應用設計並支援雙 GPU的人工智能平台─Nuvo-8208GC,專為搭載兩組高階 250W NVIDIA GPU圖像顯示卡的需求而設計,它在浮點運算(FP32)中可提供高達28 TFLOPS的超強GPU運算功率,特別適用於當代尖端的GPU加速邊緣運算科技,比如自動駕駛、視覺檢測、即時臉部辨識與移動監控等應用。
於人工智慧平台方面的新品尚有Nuvo-7164GC與Nuvo-7166GC,其為強固型嵌入式工業等級的AI推理人工智能平台,專為語音辨識、影像和圖形識別,以及電子商務推薦系統等高階推理運算應用而設計。Nuvo-7164GC與Nuvo-7166GC支援NVIDIA Tesla T4 GPU,適用於類神經網絡模型的深度學習以及即時推斷。並且得益於宸曜科技專利的機箱設計和氣流散熱技術,實現高效的GPU散熱功能。
宸曜科技長期專注於設計製造兼具強固及精巧小尺寸的無風扇工業電腦平台,擁有專利的機箱與散熱設計,使得嵌入式系統之CPU與GPU運算於100%負載之下,能夠通過攝氏零下25度~攝氏70度的寬溫環境下穩定運作。嵌入式系統相關新品包含:搭載AMD Ryzen Embedded V1000系列超精巧型嵌入式電腦POC-500、與採用專利 CAP智能電源管理及感測技術,具備9250瓦-秒超級電容的工業級不斷電系統智能管理模組PB-9250J-SA、以及滿足多種應用領域的全系列工業物聯網閘道器IGT系列。
併購Mellanox NVIDIA再掀資料產業變革
2018年底,美國晶片製造商Xilinx曾與英國第二大銀行巴克萊銀行合作,向Mellanox提出50億美元的收購報價。同時,Microsoft則是聘請了高盛集團進行收購談判,提出55億美元。此外,Intel為併購Mellanox,更是提高價格到55至60億美元。Intel欲收購的原因是,2012年Intel收購了QLogic的無限頻寬技術部門(InfiniBand, IB)和CRAY物聯網部門,成立了Intel的高速互聯部門。Mellanox的InfiniBand技術對於Intel高速互聯部門正在發展的Omni-Path架構(OPA)將能產生顯著效益。
NVIDIA資料中心業務從2016年營收8.3億美元占比12.0%,持續成長至2017年的19.3億美元占比19.9%,直到2018年的29.3億美元占比25.0%。然而,NVIDIA資料中心業務營收表現放緩,特別是2018 Q4資料中心業務營收6.79億美元,低於預期的8.39億美元。
NVIDIA資料中心業務低於預期的原因之一,是旗下最新的高階GPU銷售業績不及預期,加上近期資料中心的預算支出減緩,導致庫存過剩。其中,導致銷售業績不如預期的原因是,雖然NVIDIA在GPU架構中加入了人工智慧應用的張量核心(Tensor Core),針對深度學習操作的數學運算進行了優化,但是特殊應用積體電路(Application-Specific Integrated Circuit, ASIC)在部分人工智慧方面確實要比GPU要更有優勢,因此越來越多廠商決定自行設計人工智慧ASIC處理器。
例如Google的張量處理器(Tensor Processing Unit, TPU)、Fujitsu的深度學習處理器(Deep Learning Unit, DLU)、Intel的神經網絡處理器(Neural Network Processor, NNP)、阿里巴巴的阿里神經處理器(Ali-Neuronal Processing Unit, Ali-NPU)等等,而這也正是NVIDIA資料中心業務未來的一個危機。
Mellanox總部位於以色列和美國,成立於1999年,現有員工約3,000人,主要業務為生產資料中心的通訊晶片及硬體設備,包括網路晶片、網路介面卡、網路交換器以及網路電纜等。
Mellanox的主要業務有積體電路、主機板、交換器系統、電纜與其他。其中。對應於網路介面卡的主機板業務在收入比重和年成長率都是最重要的業務,從2016年營收3.3億美元占比39.3%,持續成長到2018年營收4.9億美元占比45.5%。
此外,Mellanox是InfiniBand的先驅之一,更是InfiniBand貿易聯盟(InfiniBand Trade Association, IBTA)9大主要董事會其中一員,IBTA成員包括了CRAY、Emulex、HP、IBM、Intel、Mellanox、Microsoft、Oracle、Qlogic。起初IBTA聯盟中只有Mellanox和Emulex專門生產製造InfiniBand產品,然而2012年Intel併購Qlogic InfiniBand部門,2015年Emulex也已經被Avago收購。如今,InfiniBand技術大廠只剩Mellanox與Intel。
InfiniBand是高性能聯網的產業標準架構之一,與高速乙太網路(Ethernet)、光纖通道和其他專有技術競爭,例如克雷公司(Clay)的SeaStar技術等。關鍵的是,無論是InfiniBand或乙太網路等領域,相較競爭大廠Intel、Broadcom、Marvell,Mellanox皆有相當完整的專利與技術布局,而成為本次眾多廠商積極併購的原因。
NVLink結合Mellanox技術推升資料處理效能
面對資料中心市場,NVIDIA本身已具有關鍵的GPU高速通訊互聯技術NVLink,可支援用於CPU與GPU之間的連接等,甚至推出NVSwitch交換器晶片組來加速大量GPU之間的通訊連接。重點是,NVLink技術相較主流的快捷外設互聯標準(Peripheral Component...
高整合PMIC新功能發威 高密度運算應用小巧省電
虛擬實境系統
虛擬實境(VR)頭盔電路框圖如圖1所示。VR頭盔屬於高密度運算應用環境。圖像顯示要求專用的圖形處理器(GPU)和影像處理器(IPU)來增強用戶體驗。音訊處理部分則要求高速數位訊號處理器(DSP),而整個系統由中央處理器(CPU)協調。
圖1 VR頭盔電路框圖
VR系統需要經過優化的電源管理方案,以支援資料處理、通訊和感測器功能。負載是動態的,並趨向於使用更低的供電電壓,這對負載瞬態電壓的跌落要求將更加嚴格。由於處理器所在設備會包裹在頭部周圍,散熱成為選擇電源管理IC的另一個關鍵指標。
AP電源管理方案
圖2所示為典型的VR電源管理方案,以及系統運行所必需的協助工具。須要多路電壓輸出為CPU、記憶體及其他功能電路供電。即時時脈(RTC)和32kHz晶振(XTAL)支持高精確度計時。GPIO擴展器提高通斷控制靈活性以及模組和感測器管理。
圖2 典型AP電源管理
如果使用分離IC實現這些複雜功能,將面臨多方面巨大挑戰:
1.AP系統要求嚴格的上電順序,以便在電壓和溫度變化條件下成功啟動。這一要求很容易造成系統被過度保護、體積龐大。
2.如果在正常工作期間遭遇系統或穩壓器故障,系統必須能夠發出處理器報警並確定下一步操作。這種優先順序和順序檢測至關重要。
3.較大的方案面積、較長的PCB走線將對穩壓器效率產生不利影響,縮短設備的執行時間,增加系統發熱程度。
4.分離式設計方案增加了電路板的元件數量,事實證明這種情況會因為裝配問題造成較高故障率,以及較差的訊號完整性。
5.分離式方案中使用IC非常多,占用更多的I2C匯流排資源,造成額外的處理器資訊讀取延遲。
整合方案
全整合方案能夠克服分離式電源配置所面臨的挑戰。圖3所示為單晶片整合PMIC為AP供電的示意圖,可有效減小PCB尺寸、重量和體積,且不會犧牲效能。
圖3 全整合式AP電源管理
MAX77714為完備的電源管理IC,特別適合運用於系統單晶片(SoC)應用處理器功能。兩路大電流降壓調節器(SD0和SD1)優化用於AP的CPU和GPU供電,且輸出電壓支援動態電壓調節(DVS),範圍為0.26V~1.52V。輸出級MOSFET的RDS(ON)經過優化,提供優異的轉換效率,如圖4靜態分析所示。這些調節器也支援強制脈寬調變技術,大幅降低輕載條件下的紋波。另外兩路調節器(SD2和SD3)具有較寬的輸出範圍,通用性更強。全部四路開關穩壓器均具有內部補償,將外部元件需求降至最低。
圖4 效率優勢
MAX77714還提供9路可靈活配置的低壓差(LDO)線性穩壓器,電流範圍為150mA~450mA,適用於系統的雜訊敏感電路供電。全部LDO都具有兩種軟啟動速率,以限制啟動期間的浪湧電流,支援較寬的輸出電壓範圍。8個GPIO接腳可靈活配置。其中4個GPIO接腳可配置用作電源排序(FPS)控制,3個GPIO接腳可配置為32kHz時脈輸出,用於同步外部系統。最後,第8個GPIO接腳則可配置為系統喚醒接腳。
即時時脈配合外部晶振工作,提供計時和喚醒功能。如果不使用該功能,則可使用內部矽振盪器,以節省BOM成本。可靠的開/關控制狀態機驅動FPS實現上電/斷電、故障處理和電源模式控制,最大程度減少AP的介入。此外,整合看門狗計時器用於系統監測,避免AP操作掛起狀態。
PMIC採用70焊球、4.1mm×3.25mm
×0.7mm、0.4mm焊距晶圓級封裝(WLP),是空間受限應用的理想選擇;此外,較高的工作頻率允許使用小尺寸被動元件,最終獲得PCB面積僅為230mm2的總體方案(圖5)。
圖5 PCB 230mm2
PMIC具有多個可配置暫存器,可以透過I2C進行自訂,實現眾多產品的量身定制。
虛擬實境應用中的AP供電在靈活性、效率和尺寸方面都帶來了諸多設計挑戰。高度整合的PMIC方案提供靈活配置,非常適合各種空間受限的應用處理器供電。低RDS(ON) FET提供優異的轉換效率,同時高頻工作允許使用小尺寸被動元件,進一步降低PCB尺寸和成本。
(本文作者為Maxim半導體工程師)
人工智慧結合機器視覺 創新應用源源不絕
ML增添機器視覺應用彈性
研華網路暨通訊事業群資深協理林俊杰(圖1)指出,機器視覺在製造業應用已經有相當長的一段歷史,且隨著檢測對象不同,分化出許多次領域,例如針對電子元件、電路板的自動化光學檢測(AOI)、針對產品組裝的視覺校準/對位,乃至成品/半成品的外觀瑕疵檢測等,都可以歸類於機器視覺的範疇。
圖1 研華網路暨通訊事業群資深協理林俊杰表示,機器學習可望讓機器視覺變得更具應用彈性,系統整合商更容易將業務觸角延伸到其他領域。
但現有機器視覺系統的核心,多半是以規則為基礎的軟體程式,當工業相機拍攝到過去從未見過的影像,取得的特徵值無法對應回既有的軟體系統時,就會很容易出現誤判或無法識別。這使得機器視覺系統的設計規畫跟部署,變成一項非常仰賴專家的工作。唯有針對某一類應用有深入研究,並且累積了大量經驗的SI,才能寫出符合生產線需求機器視覺軟體。而且,某個特定領域的專家,要跨到其他機器視覺的領域,也不是那麼容易的事情。
基於機器學習(ML)的機器視覺,則是完全不同的典範。一套辨識模型或演算法,經過不同的資料集訓練,就可以辨識出不同型態的圖樣,而且隨著工業相機取得的影像資料越多,累積的訓練資料增加,系統辨識的準確度還有機會進一步改善。
另一方面,對機器視覺SI業者而言,基於ML的視覺系統還有更容易跨領域應用的優勢。例如一個經過訓練的免洗杯辨識演算法,只要稍加調整跟再訓練,就可以用來辨識不同種類的杯子,例如玻璃杯、馬克杯,因為這些杯子都有一些共通的特徵值。如果是傳統的機器視覺軟體,開發過程就得從頭來過。
凌華科技資深產品經理許凱翔(圖2)指出,機器學習對機器視覺技術的應用拓展,能做出非常大的貢獻。在過去,機器視覺軟體是以預先設定的規則為基礎,工程師在開發軟體時,必須用演算法把想要偵測的影像特徵,例如瑕疵的特徵詳實描述清楚,系統判斷的準確率才會高。
圖2 凌華科技資深產品經理許凱翔認為,遇到本身帶有圖樣的待檢測物件,機器學習的優勢非常明顯。
但在實際應用上,這種方法常會遇到困難,例如待測物本身就帶有某些圖樣(Pattern)時,當瑕疵跟背景圖樣混在一起,系統要精準辨識出瑕疵的難度就很高。這種情況在電子業其實很常見,例如TFT-LCD面板、太陽能電池片(Solar Cell),本身就是有圖樣的產品,要用現有的機器視覺去抓出這類產品的瑕疵,是很大的挑戰。
對機器學習來說,圖樣辨識正是它最擅長的工作。因此,基於機器學習的機器視覺系統,只要圖像處理、判斷的速度夠快,就能為機器視覺技術的應用打開很多新的可能性。
FPGA/GPU對決戲碼上演
要讓機器視覺系統具備執行機器學習推論的能力,相關設備必須具備更高的運算能力。目前市場上已經有許多半導體業者推出機器學習解決方案,但由於各家業者的核心技術不同,因此在性能、功耗與應用彈性方面,存在很大的落差。
林俊杰指出,目前機器學習最理想的開發平台是GPU,因為GPU有最好的軟體適應性,設計迭代最方便,但如果是要部署到生產現場,GPU可能就不是那麼理想,因為GPU的功耗較高,有時還是需要搭配主動式散熱。但很多生產現場是不允許散熱風扇存在的,例如烤漆作業區,因為環境裡有粉塵,不只容易導致風扇故障,萬一有火花產生,還有可能引發爆炸。
因此,如果是要部署到現場的設備,其所搭載的GPU理想上應該採用低功耗版本,以避免設備必須仰賴主動式散熱。但低功耗版本的GPU,運算效能也相對有限,應用開發者必須對此做出取捨。
相較之下,FPGA是比較適合部署在現場的運算硬體平台,但FPGA的設計迭代過程比GPU耗時,軟體修改後,硬體描述語言(HDL)也要跟著調整,才能實現最佳化。因此,基於FPGA的機器視覺系統,開發時間必然會比基於GPU的系統來得漫長。
許翔凱則表示,GPU的開發速度最快,而且幾乎每個研究人工智慧(AI)的工程師都熟悉GPU平台的開發環境。人才跟平台的易用性,是凌華決定跟NVIDIA合作,率先推出整合Jetson TX-2嵌入式GPU的NEON-J工業相機的原因。
不過,由於Jetson-TX2是專為嵌入式應用設計的低功耗GPU,其運算能力無法跟桌上型電腦、伺服器使用的GPU相提並論,因此目前NEON-J不能執行太複雜的機器學習模型,否則會來不及對影像做出即時判斷。
即便NEON-J目前還無法執行太複雜的模型推論,但其基於機器學習的特性,已經成功為機器視覺打開新的應用市場。舉例來說,食品業的產品分類/分級應用,就很適合用NEON-J來執行。像是肉品分切作業,要依照肉品的油花分布狀況來判斷肉品等級,或是肉品出於哪個部位,就要靠圖像識別來實現,傳統基於規則的機器視覺軟體很難處理這種問題。
另一個應用案例是冷凍披薩工廠的品管。披薩廠商在產品包裝前,要先檢查披薩上的餡料數量、狀態做出檢查,才能避免NG的產品賣到消費者手上。從機器視覺的角度,這是一個典型的圖樣辨識問題,例如鳳梨、香腸的片數是否符合標準,有沒有破損,就得靠圖樣識別來做。因為披薩上的鳳梨、香腸切片可能有大有小,傳統的機器視覺分析軟體遇到這種待測物,容易出現誤判。
ASIC加速器設計過於局限 不利機器視覺應用
至於眾多大廠與新創公司紛紛布局的專用加速器,對機器視覺開發商來說,吸引力恐怕很有限。林俊杰認為,專用加速器最大的問題在於彈性不足,只能對特定模型發揮加速效果,如果機器視覺系統使用的模型不在其支援範圍內,不是加速效果不好,就是根本無法執行。
這正是在機器視覺系統中使用專用加速器最大的問題--機器視覺要偵測的物件或圖樣有很大的變異性,使用的模型可能不是主流。相較之下,安全監控產業的需求單一,如果需要用到人工智慧,不外是用來實作人臉識別、人流偵測、虛擬圍籬等功能,使用的模型也只有固定幾種,因此晶片開發商在設計晶片時,可以很容易掌握客戶的規格需求。
此外,跟安全監控相比,機器視覺是一個規模更小的利基市場,因此晶片商恐怕不會這麼快就將產品線延伸到機器視覺相關領域。因此,林俊杰預估,至少在未來兩到三年內,機器視覺開發商如果要採用人工智慧,處理器的選擇應該只有GPU跟FPGA兩種。
訓練資料集取得不易為最大發展障礙
總結來說,對機器視覺應用來說,機器學習是一個很值得期待的互補型技術。以規則為基礎的分析軟體,在量測物件尺寸、辨識QR Code、條碼,以及引導機器手臂在2維平面上運作,是很有效率的,可靠度也高。但如果是要處理跟圖樣有關的問題,機器學習是比較理想的解決方法。
不過,對大多數基於機器學習的系統來說,訓練資料的數量跟品質,還是許多開發者所面臨的最大難題,基於機器學習的機器視覺也不例外。現在許多網路大廠都已經提供雲端訓練工具,因此,開發者要訓練自己的模型,門檻已經比以往大為降低,但要取得足夠且高品質的訓練資料集,還是要投入很多資源。
近幾年中國掀起人工智慧熱潮,也促成一個新的行業--資料標籤公司誕生,但這些專門提供資料標籤建置的服務業者,通常沒有足夠的能力處理工業製程中所拍攝的影像。舉例來說,金屬加工件的邊緣出現毛邊,但程度要多嚴重才應該被判定不良品,就只有那個行業的老師傅能準確判斷,不在該行業的標籤建置人員很難做好這項工作。因此,即便是採用機器學習技術,SI想要跨到新的領域,還是有一定門檻要跨過。
許翔凱就透露,有一家客戶曾經把資料集建置的工作外包給專門做資料標籤的公司,但據此訓練出來的模型,準確率跟預期有一段落差。客戶回頭檢討才發現,訓練模型用的資料集有很多標籤是錯誤的,因此訓練出來的模型當然不準確。
因此,如果工廠真的有意導入基於機器學習的視覺系統,在資料建置方面,最好還是不要假他人之手。讓自家產線上的作業員協助標記,成果會比外包好,但相對的也會增加作業員的工作負擔。
除了標籤的問題外,不良品的影像資料取得,其實是很困難的事。以凌華自己的產線為例,一條成熟的生產線,產品良率至少都在9成以上,不良品的數量非常少。這意味著凌華很難收集到不良品的影像去進行模型訓練。
也因為不良品的影像很難取得,因此有很多研究者嘗試用變造影像的方法來擴充資料集,例如把影像扭曲、旋轉、添加雜訊等。從一些實驗數據來看,這種方法可能有效,但在工業應用上,用這種資料集訓練出來的模型能不能用,還需要進一步驗證。此外,也有一些新的模型只需要少量訓練影像資料,就能達到不錯的準確率,但這些模型是否適合機器視覺應用,也還需要進一步研究。
因此,機器視覺系統要改以機器學習為基礎,並大量普及到工業現場,還需要一些時間來醞釀。但整體來說,因為以機器學習為基礎的機器視覺,對各種應用情境的適應能力較佳,因此長期來看,SI或軟體開發者應該還是會逐漸轉向機器學習。
迎戰5G大數據運算難題 GPU力助電信商導入AI效能
5G高頻寬、低延遲與大資料量傳輸特性,預期將會徹底改變人們的生活,也意味著在5G時代將帶來處理大數據運算的難題。為此,電信商開始攜手GPU廠商,企圖以導入人工智慧(AI)效能的方式,解決5G資料量爆炸的課題。
NVIDIA全球電信產業發展負責人Soma Velayutham表示,雖然5G環境不會一蹴可幾,但不容置疑的是它與過去的通訊技術截然不同。舉例來說,智慧手機與雲端服務的普及化,使得消費者每天使用社群媒體和影音串流的應用服務逐漸增加,可看到4G用戶每天所產生約1GB數據資料量,而5G時代,在雲端AR/VR、車聯網、工業物聯網及智慧城市的帶動下,每天用戶所產生的資料將高達300GB,此現況也將為布局5G的電信業者帶來全新挑戰。。
Velayutham進一步說明,從4G轉型為5G網路的過程中,最大的不同在於5G提升了100倍的頻寬、200倍的密度與40倍的延遲速度,而這些效能亟需仰賴更多的雲端支援,也就是軟體定義網路(SDN)的技術,同時結合AI、深度學習、大規模多重輸入多重輸出(Massive MIMO)與可編程(Programmable)等技術能力予以支援,藉此滿足5G所需要的頻寬、網路速度與大連結效能。
而當5G應用需要更多的運算需求,CPU成長曲線也正逐漸趨緩當中,也有人說摩爾定律即將步入終點。Velayutham認為,網路速率以30倍的速度飛快成長,通用型運算處理的CPU已無法滿足需求,此時就需要GPU加速器的運算才能予以滿足。以NVIDIA來說,提供了軟硬體整合平台,其中結合GPU Cloud、高效能運算(HPC)、AI、視覺化(Visualization)等能力,超越摩爾定律的效能,並以每年1.5倍的指數級速度成長,預計2025年成長將達千倍以上。
當5G、AI與GPU的相遇會產生甚麼火花呢?時至今日,也有越來越多的電信商開始產生濃厚興趣,包含中國移動、AT&T、SK Telecom與Verizon皆有相關的布局。舉例來說,SK Telecom將目標放在智慧城市的應用,期能透過智慧影像分析(IVA)的方式保護公民與財產,實現這項能力背後須具備即時分析百萬台攝影機之數據的技術,須仰賴深度學習與強大的運算能力。基於此,SK Telecom採用NVIDIA GPU支援AI遠端影像監控應用服務(VSaaS),提升5倍的訓練速度,並透過TensorRT拓展推理引擎能力,使其在不犧牲精度的情況下兼具成本效益。
此外,Verizon則是希望了解設置於各地的基地台網路品質,期能藉由GPU的導入提升基地台網路分析能力並確保網路QoS。據了解,Verizon使用NVIDIA GPU將傳統基於ML-ARIMA演算法升級於DL-LSTM,從而提升網路分析精度並縮短分析時間,將過去需要一整天分析的時間,所短成一小時內完成。
Velayutham強調,NVIDIA與內容供應商、行動設備,以及各類型消費性電子商合作,在此基礎下,已清楚了解各種應用所面臨的困境與挑戰,扮演串聯上中下游5G相關產業與應用的關鍵角色,預計將能更加深入的協助電信商克服5G挑戰,加速其5G相關建設的布署。
AI商機/挑戰並存 半導體材料突破將成重點
人工智慧(AI)大行其道,但若要執行相關演算法或模型,需要大量運算能力,因此對半導體產業而言,AI固然蘊含龐大商機,但同時也帶來許多挑戰。在摩爾定律(Moore's Law)逐漸失效,晶片業者不再只能倚靠電路微縮來實現效能更高、成本更低的晶片之際,AI運算需求所帶來的挑戰更形艱鉅。美商應用材料(應材)認為,為了回應這些AI帶來的挑戰,在產業生態面,半導體產業的風貌將從上下游關係分明的直線鏈條轉變成互相交錯的產業網路;在技術面,則必須在運算架構、設計結構、材料、微縮方法與先進封裝這五大領域提出新的對策,而材料工程將在這中間扮演最核心的角色。
美商應用材料副總裁暨台灣區總裁余定陸認為,對整個半導體產業來說,AI是一個完美風暴,但同時也是完美的商機。我們正面臨有史以來最大的AI大戰,不論是傳統科技領導大廠、新創公司或軟體公司,都投入大量的資源、押寶不同的技術領域、聚焦應用的客製化及最佳化,專注於硬體的設計以及投資發展。在電腦運算處理器部分,人工智慧需要大量、快速的記憶體存取及平行運算,才能提升巨量資料處理能力,這時繪圖處理器(GPU)及張量處理器(TPU)會比傳統運算架構更適合處理人工智慧的應用。 為了使人工智慧潛力完全開發,其效能/功耗比(Performance/Watt)需比目前方案提高1,000倍 ,已成為現階段技術層面亟需突破的關鍵。
另一方面,為了應對大量資料跟高速運算需求,儲存資料用的記憶體、用來傳輸資料的高速介面技術等,也有許多可以發揮跟探索的空間。過去幾年,NAND Flash已經率先從2D走向3D,接下來還有許多新興記憶體蓄勢待發。先進封裝技術的推陳出新,讓異質整合成為可能,不僅讓晶片業者可以在單一封裝內整合更多功能,同時也讓資料傳輸的速度大為提升。
而在整個半導體產業面臨如此重大變化之際,市場對半導體產品的需求其實沒有太大改變。對半導體使用者、客戶來說,最注重的還是晶片的效能(Performance)、功耗(Power)、面積成本(Area Cost, AC),也就是應材常說的PPAC這三大指標。為了滿足客戶對產品的需求,應材認為,材料科學的突破是最關鍵的。
隨著晶片的結構越來越複雜,半導體製程發展的挑戰變得更為艱鉅。但如果在材料科學方面能有新的突破,將可協助半導體製造商解決不少問題。例如在晶片內數量越來越多的矽穿孔(TSV),必須精準地打在正確的位置上,否則就會形成短路。但以現在的製程方法,要確保TSV的位置正確,是相當有挑戰性的課題。為此,應材已發展出可以自動對位的新材料跟對應製程方法,可協助半導體製造業者解決這項難題。
最後,為了應對未來的挑戰,半導體產業的運作模式也必須跟著改變。當今的半導體產業上下游都是以直線型的方式來運作,互連性十分薄弱,但未來必須以神經網路形態(Neuromorphic)的思維,進行平行發展與學習,運用互連加速創新。每家廠商不只要面對客戶,以後還要跟客戶的客戶、客戶的夥伴攜手合作,才能發展出符合客戶需求的產品跟解決方案。
ML提升機器視覺應用彈性 SI業務發展路更寬
機器視覺在製造業應用存在已久,但過去的機器視覺本質上是以規則為基礎的專家系統(Rule-based Expert System),不具備自主學習的能力,能處理的問題範疇也較為專一。這也使得機器視覺的系統整合商(SI)規模普遍不大,但在特定領域有非常深厚的技術累積。以機器學習(ML)為基礎的機器視覺系統,則可能改變這個產業風貌,讓SI更容易跨入不同領域。
研華網路暨通訊事業群資深協理林俊杰指出,機器視覺在製造業應用已經有相當長的一段歷史,且隨著檢測對象不同,分化出許多次領域,例如針對電子元件、電路板的自動化光學檢測(AOI)、針對產品組裝的視覺校準/對位,乃至成品/半成品的外觀瑕疵檢測等,都可以歸類於機器視覺的範疇。但現有機器視覺系統的核心,多半是以規則為基礎的軟體程式,當工業相機拍攝到過去從未見過的影像,取得的特徵值無法對應回既有的軟體系統時,就會很容易出現誤判或無法識別。
這使得機器視覺系統的設計規畫跟布署,變成一項非常仰賴專家的工作。唯有針對某一類應用有深入研究,並且累積了大量經驗的SI,才能寫出符合生產線需求機器視覺軟體。而且,某個特定領域的專家,要跨到其他機器視覺的領域,也不是那麼容易的事情。
基於機器學習(ML)的機器視覺,則是完全不同的典範。一套辨識模型或演算法,經過不同的資料集訓練,就可以辨識出不同型態的圖樣,而且隨著工業相機取得的影像資料越多,累積的訓練資料增加,系統辨識的準確度還有機會進一步改善。
另一方面,對機器視覺SI業者而言,基於ML的視覺系統還有更容易跨領域應用的優勢。例如一個經過訓練的免洗杯辨識演算法,只要稍加調整跟再訓練,就可以用來辨識不同種類的杯子,例如玻璃杯、馬克杯,因為這些杯子都有一些共通的特徵值。如果是傳統的機器視覺軟體,開發過程就得從頭來過。
不過,對大多數基於機器學習的系統來說,訓練資料的數量跟品質,還是許多開發者所面臨的最大難題,基於機器學習的機器視覺也不例外。現在許多網路大廠都已經提供雲端訓練工具,因此,開發者要訓練自己的模型,門檻已經比以往大為降低,但要取得足夠且高品質的訓練資料集,還是要投入很多資源。
近幾年中國掀起人工智慧熱潮,也促成一個新的行業--資料標籤公司誕生,但這些專門提供資料標籤建置的服務業者,通常沒有足夠的能力處理工業製程中所拍攝的影像。舉例來說,金屬加工件的邊緣出現毛邊,但程度要多嚴重才應該被判定不良品,就只有那個行業的老師傅能準確判斷,不在該行業的標籤建置人員很難做好這項工作。因此,即便是採用機器學習技術,SI想要跨到新的領域,還是有一定門檻要跨過。
此外,目前機器學習最理想的開發平台是GPU,因為GPU有最好的軟體適應性,設計迭代最方便,但如果是要布署到生產現場,GPU可能就不是那麼理想,因為GPU的功耗較高,有時還是需要搭配主動式散熱。但很多生產現場是不允許散熱風扇存在的,例如烤漆作業區,因為環境裡有粉塵,不只容易導致風扇故障,萬一有火花產生,還有可能引發爆炸。
相較之下,FPGA是比較適合布署在現場的運算硬體平台,但FPGA的設計迭代過程比GPU耗時,軟體修改後,硬體描述語言(HDL)也要跟著調整,才能實現最佳化。因此,機器視覺系統要改以機器學習為基礎,並大量普及到工業現場,還需要一些時間來醞釀。但整體來說,因為以機器學習為基礎的機器視覺,對各種應用情境的適應能力較佳,因此長期來看,SI或軟體開發者應該還是會逐漸轉向機器學習。
5G殺手應用現身 遊戲串流牽動科技版塊遷移
5G技術即將在2019年下半逐步進入商業運轉,但電信業者要如何從5G服務獲利,卻是個很大的問題。大頻寬、低延遲與高密度連線是5G與現有行動通訊技術最主要的三大差異,也讓5G除了提供行動寬頻服務之外,還有機會運用在自駕車、物聯網等新應用市場上。然而,這些應用不是還需要時間醞釀,就是有其他替代技術選擇,很難成為帶動5G起飛的引擎。從電競跟電玩遊戲衍生出來的應用,或將成為5G打響第一炮的殺手應用。
優必達創辦人兼總經理郭昌榮指出,電玩遊戲產業正在經歷一個全新的架構革命。以往,電玩應用的圖像運算都是利用本地端的硬體執行,但隨著網路技術進步,未來遊戲的圖像運算不一定只能依賴本地端的GPU來執行。配備大量GPU的雲端資料中心,搭配延遲夠低的網路連線,未來電玩遊戲可以像現在的影音串流服務一樣,直接把遊戲畫面串流到使用者的終端裝置上,也就是所謂的遊戲串流(Game Streaming)。
對遊戲業者而言,這是未來必然要走的路,因為在現有的環境下,一套遊戲軟體如果要跨平台發行,必須針對不同硬體平台開發出對應版本。但如果遊戲變成串流服務,開發商只要開發一個版本,就能接觸到所有玩家。此外,當遊戲變成一種服務(Gaming as a Service),遊戲開發商即便是發行單機遊戲,也可像發行線上遊戲般,取得穩定的月租費收入來源。事實上,有些日本遊戲業者已經推出包月制的商業模式,玩家只要每月付費,平台的上千種遊戲就任你玩。
除了遊戲平台商之外,遊戲發行商如美商藝電(EA)、法國育碧(Ubisoft)、日本任天堂(Nintendo),也都已經開始嘗試這種新的經營模式。例如育碧旗下大作《刺客教條:奧德賽》在任天堂的Switch平台上,就是用這種方式發行。因為Switch的硬體效能有限,要流暢執行刺客教條這類3A級遊戲大作,先天上的難度較高。
郭昌榮認為,行動通訊技術不斷演進,是串流服務市場得以擴大的最主要原因。在3G世代,串流音樂竄起,取代了MP3下載;在4G時代,串流影音服務讓消費者可以在手機、平板電腦上追劇;5G時代則可望看到電玩遊戲加入串流服務的行列。
不過,這個趨勢對硬體製造商來說,恐怕不見得有利。遊戲是最消耗運算資源的消費性軟體應用,對延遲也最敏感。因此,硬體廠商看準這個需求,近年來紛紛推出專為電玩設計的高效能硬體產品,進而大發利市。但在遊戲從本地端執行走向串流的趨勢下,未來使用者手上的終端裝置不見得需要搭載高效能處理器,也能跑得動遊戲。
這會促使硬體產業鏈必須加碼布局雲端資料中心,因為當運算任務從本地端轉向雲端,雲端對高效能運算的需求將只增不減,且因為雲端資料中心必須同時為大量用戶提供服務,因此不只要配備大量GPU,儲存系統的讀寫速度、網路頻寬、延遲等參數,都會對用戶體驗造成顯著影響。這也是優必達決定與群聯攜手合作,採用全固態硬碟(SSD)儲存方案的原因。傳統硬碟的速度太慢,無法滿足雲端遊戲串流的需求。
群聯董事長潘建成表示,電競產業發展大約是從1999~2000年開始,過去以重度的遊戲玩家為核心,但隨著直播的興起,遊戲從個人的娛樂變成了一種可觀賞的運動,比賽或活動的贊助及廣告、軟硬體及週邊商品、門票收益、轉播權利金、業餘玩家及小型比賽等,無不為這個市場帶來了龐大的產值。根據調查機構Newzoo的資料,2018全球遊戲及電競產業產值約達1,388億美元,至2021年產值將可逾1,800億美元,2022年上看2,000億美元,並預計6~8年後,創造的商業利益將超過NBA,成為第二大的運動賽事。
但電競是一個對效能需求極高的應用,不管是在本地端執行或是雲端串流都一樣。為了滿足應用需求,群聯最新款NVMe SSD控制晶片PS5012-E12不管在讀寫速度或容量上,都比先前的產品大幅提升,連續讀寫速度分別為3,450MB/s與3,150MB/s,可為需要加速密集資料傳輸的遊戲環境帶來更高的用戶體驗。此外,1TB與2TB的隨機讀取/寫入速度均可達600K/600K IOPS,適合多執行緒程式應用(Multi-threaded applications)和數據密集的多重作業環境。
AI掀起高效運算熱潮 DSA/DSL後勢看好
有資訊科學界諾貝爾獎之稱的圖靈獎(Turing Award),在2018年3月宣布2017年度的得獎者,由David Patterson跟John Hennessey兩位研究計算機架構的大師級人物獲獎(圖1)。兩位學者合著的「計算機組織與設計--硬體/軟體介面」,出版至今已有25年,仍是資訊工程學界必讀的權威著作之一。
圖1 2017年度圖靈獎得主John Hennessey(右)與David Patterson(左)
兩位學者對計算機架構跟微處理器的演進產生非常深遠的影響,如精簡指令集(RISC)的概念就是由兩位學者所提出。因此,Patterson跟Hennessey早已注定名留青史,獲得圖靈獎肯定則可說是錦上添花,甚至有些令人意外。
傳統上,圖靈獎是一個非常偏向軟體的獎項,例如人工智慧(AI)研究、程式設計理論跟密碼學,就是圖靈獎的常勝軍,很少由跟硬體有直接關係的研究者獲得。因此,兩位學者在這個時間點獲得圖靈獎肯定,加上眾多新興運算架構如雨後春筍般出現,也象徵著硬體創新的價值,再度獲得各界肯定。
通用架構面臨效能/安全雙重考驗
在過去半個多世紀,製程微縮一直是半導體業者得以降低晶片製造成本、功耗、提升晶片效能最重要的原因,但如今製程微縮已經無法再像過去那樣,為晶片供應商帶來上述好處。先進製程的開發費用極為昂貴,而且對功耗跟效能的提升效果已不若過去明顯。即便電晶體尺寸在技術上還有進一步微縮的空間,對晶片商來說,到底值不值得,是個需要精打細算的問題。
Patterson與Hennessey在得到2017年度圖靈獎肯定之後,於2018年6月聯合發表過一篇公開演說,認為運算架構的發展將進入另一個黃金年代,領域專用架構與領域專殊語言將成為新顯學。
兩位學者表示,摩爾定律發展面臨瓶頸,已經是不爭的事實。不管是記憶體晶片的密度,或處理器晶片上整合的電晶體數量,都已經無法追上摩爾定律原本預期的目標。對處理器晶片製造商來說,靠電路微縮來換取晶片效能提升,已經是一條走不通的路,未來必然要從其他創新,特別是架構上的突破來著手。
然而,回顧處理器架構的發展史,通用架構跟通用語言在過去30年來,其實沒有突破性進展。過去30年間,沒有任何新的通用型複雜指令集(CISC)的指令集架構(ISA)被提出;通用型超長指令集(VLIW)的ISA則有過一次失敗的嘗試,即英特爾(Intel)跟惠普(HP)合推的Itanium 64。歸結通用型VLIW失敗的原因,主要是因為過於複雜,跟循序超純量(In-order Superscalar)不相上下,因此在執行複雜應用軟體時,沒辦法帶來太多實際效益。
不過,VLIW在嵌入式數位訊號處理器(DSP)是成功的,因為這個應用市場對VLIW的需求較為單純,分支問題相對簡單、快取很小或根本沒有快取、程式規模也小。某種程度上,嵌入式DSP其實是一個帶有領域專用色彩的處理器架構。它所要處理的問題範疇相對明確,不像通用型處理器跟通用型語言,要應付各式各樣的需求。
相較之下,精簡指令集(RISC)無疑是目前最成功的通用型運算架構,目前市面上幾乎所有通用型處理器,包含x86處理器在內(更精確來說,是x86指令集相容),本質上都是RISC。然而,RISC能為處理器帶來的效能成長空間,也已經接近極限,需要更多技術跟架構上的突破,才能進一步提高處理器的效能(圖2)。
圖2 過去40年處理器效能進展概況
除了現有運算架構的效能已經接近極限之外,現有運算架構還面臨另一個很大的難題--安全性。2018年初,Google Project Zero對外公布推測執行(Speculative Execution)漏洞,並有其他研究人員基於此漏洞,發展出熔毀(Meltdown)與幽靈(Spectre)兩大類攻擊手法。由於此漏洞普遍存在於現有的處理器架構上,因此英特爾(Intel)、超微(AMD)與安謀(Arm)均無一倖免,且很難用軟體予以解決。
Patterson與Hennessey指出,現有的CPU架構其實在介面上非常老舊,因此存在許多攻擊向量,英特爾CPU的管理引擎(Management Engine, ME)處理器就是其中之一。可以預期的是,未來還會有更多基於CPU架構漏洞而發展出來的攻擊手法,如果不從架構翻新著手,類似問題將層出不窮。
領域專用型架構/語言將是未來方向
通用型處理器架構跟語言未來的效能發展,顯然已經面臨困境。未來晶片業者如何推出效能更強的新產品,來滿足市場需求?兩位學者認為,領域專用型的處理器架構跟程式語言,將成為未來發展機會最大的方向。所謂領域專用型的架構跟語言,分別是指針對特定領域的需求屬性客製化的運算架構,以及配合該架構所使用的程式語言。
通用型架構所面臨的問題,前文已經有所論述。通用型程式語言的發展,主要面臨的問題在於過度強調程式開發者的開發效率,忽視了程式執行的效率。從當代腳本式語言的發展就可以看出,程式語言的發展是朝鼓勵設計重用(Re-use)、語法更自由的方向發展。這個方向有助於提高程式開發的效率,但對程式執行的效率卻沒有太大幫助。
因此,如果要追求更好的效能表現,處理器開發商跟軟體社群必須改變思維,針對其鎖定的應用發展出最佳化的架構。目前領域專用型架構跟領域專用型語言進展最快的應用領域,當屬機器學習、電腦繪圖跟可編程網路交換器、介面。這些應用各自孕育出神經網路處理器(NPU)、神經網路加速器、繪圖處理器(GPU)等對應的硬體架構,同時也發展出一套自己專用的程式框架或API。
更具體地說,Google的TPU與TensorFlow、GPU與OpenGL的搭配組合,就是領域專用架構跟領域專用語言的實際案例。TPU跟GPU各自有其適合處理的運算任務,在某幾種應用領域內,搭配專用的軟體語言,可提供極佳的運算效能;但如果離開其所擅長的應用領域,其整體效能表現就會大打折扣。
而這也意味著DSA跟DSL的發展必須相互依存,如果DSL的發展獨立於DSA之外,雖然可以有比較好的靈活度,但通常是以犧牲執行效能作為代價。TensorFlow就是獨立於TPU之外發展起來的DSL,因此在執行效率上還有可改善的空間。這也促使Google決定自行發展XLA編譯器,以提升TensorFlow執行效率。
大量新創公司擁抱領域專用概念
事實上,兩位學者所提出的方向,是科技業內許多廠商在過去幾年一直追求的目標,特別是半導體領域的新面孔,其領域專用的產品布局方向非常明顯,如自行開發TPU的Google,以及正在大力挖角各方好手,也想開發自有AI晶片的Facebook,以及中國的百度、阿里巴巴,都是朝領域專用處理器的方向進行布局。
除了網路大廠,半導體新創公司普遍也是以領域專用作為產品布局的主要策略,特別是中國的晶片設計公司,在人工智慧、機器學習的浪潮下,普遍以神經網路加速器作為創業題目或未來發展重點。
明導國際(Mentor)執行長Walden Rhines(圖3)就指出,半導體購併浪潮冷卻後,現在半導體領域的新創公司又開始大為活躍,並獲得創投基金大量挹注。根據明導彙整多家研究機構與自身研究團隊的數據指出,AI跟ML是2012~2018年期間,創投基金對半導體新創公司挹注金額最多的應用領域,總金額達到11.63億美元(圖4)。
圖3 明導國際執行長Walden Rhines認為,DSA將成為未來處理器發展不可忽視的主流。
圖4 2012~2018年全球創投基金對半導體新創公司投資金額概況
如果只看2018年,僅14家AI/ML新創公司從創投取得的資金,就高達7.86億美元。AI/ML成為爆紅創業題材的情況,由此可見一斑。這些AI/ML新創公司都是採用領域專用架構來開發晶片的企業,具體產品則是神經網路加速器或神經網路處理器。
軟硬體共同設計考驗老將新秀
大量新面孔帶著新的題目加入半導體產業行列,對產業發展是好事。但從現實面來看,創業成功的機率本來就不高,即便是選擇市場機會大的題目,輔以合乎產業發展潮流的產品策略來創業,失敗的風險也不低。以DSA跟DSL為例,要開發這種產品,設計團隊必須非常了解應用需求,DSL跟相關編譯器技術要有一定的掌握度。此外,硬體架構的設計原則跟實作等硬體開發的基本功,也是成功不可或缺的關鍵。
以此進一步分析,大型網路公司本身就是使用者,同時又是軟體起家,因此前兩項要素的掌握度較高,至於硬體開發相關環節,則較為欠缺,必須靠挖角或購併來建立硬體團隊。新創公司則通常是以硬體架構或編譯器作為核心能力,但實作跟應用需求的掌握度較低,必須盡快補足。
至於現有的晶片設計公司,在硬體設計方面具有優勢,但對於新興的DSL通常掌握度較低。如何招募到相關人才,強化對新興語言的支援性,或許是最大的考驗。
直言之,在DSA/DSL大行其道的未來,軟體跟硬體必須同步發展,相輔相成。純軟體或純硬體公司,恐怕都得因應此一趨勢的轉變,及早規劃轉型對策。