FPGA
AI發展歷久彌新 推論晶片商機展露
圖1 人工智慧的第三波熱潮。
資料來源:http://www.technologystories.org/ai-evolution/
人工智慧的運用分成兩個階段,一是學習訓練階段,二是推論(或稱推算、推理)階段,此與應用程式相類似,程式開發階段即為學習訓練階段,程式正式上線執行運作則為推論階段。開發即是船艦在船塢內打造或維修,執行則為船艦出海航行作業執勤(圖2)。
圖2 人工智慧訓練與推論的差別。
資料來源:https://blogs.nvidia.com/blog/2016/08/22/difference-deep-learning-training-inference-ai/
訓練與推論階段對運算的要求有所不同,訓練階段需要大量繁複的運算,且為了讓人工智慧模型獲得更佳的參數調整數據,運算的精準細膩度較高,而推論階段則相反,模型已經訓練完成,不再需要龐大運算量,且為了儘快獲得推論結果,允許以較低的精度運算。
例如一個貓臉辨識應用,訓練階段要先提供成千上萬張各種帶有貓臉的照片來訓練,並從中抓出各種細膩辨識特點,但真正設置在前端負責辨識來者是否為貓的推論運算,只是辨識單張臉,運算量小,且可能已簡化特徵,只要簡單快速運算即可得到結果(是貓或不是)。
推論專用晶片需求顯現
對於人工智慧的訓練、推論運算,近年來已普遍使用CPU之外的晶片來加速,例如GPGPU、FPGA、ASIC等,特別是GPGPU為多,原因在於GPGPU的高階軟體生態較為完備、可支援多種人工智慧框架(Framework),相對的FPGA需要熟悉低階硬體電路者方能開發,而ASIC通常只針對限定的軟體或框架最佳化(表1)。雖然FPGA與ASIC較有難度與限制,但仍有科技大廠願意投入,如Microsoft即主張用FPGA執行人工智慧運算,Google則針對TensorFlow人工智慧框架開發ASIC,即Cloud TPU晶片。
人工智慧模型的開發(訓練)與執行(推論)過往多使用同一晶片,用該晶片執行訓練運算後也用該晶片執行推論運算。但近1、2年來隨著訓練成果逐漸增多,成熟的人工智慧模型逐漸普及,以相同晶片負責推論運算的缺點逐漸浮現。以GPGPU而言,晶片內具備大量的平行運算單元是針對遊戲繪圖、專業繪圖或高效能運算而設計,可運算32、64位元浮點數,這在人工智慧模型訓練階段亦適用,但到推論階段,可能只需16位元浮點、16位元整數、8位元整數等運算即可求出推論結果,甚至是4位元整數便足夠。如此過往的高精度大量平行運算單元便大材小用,電路與功耗均有所浪費,所以需要人工智慧的推論專用處理晶片。
半導體廠紛發展推論晶片
推論晶片的需求在人工智慧重新倡議後的2年開始浮現,但在此之前已有若干產品,如2014年Google對外揭露的探戈專案(Project Tango)即使用Movidius公司的Myriad晶片(圖3)。
圖3 Intel Movidius Myriad X晶片
資料來源:Intel
Movidius之後於2016年推出Myriad 2晶片,同樣也在2016年,Intel購併Movidius取得Myriad 1/2系列晶片,並接續推出Myriad X晶片。Google除探戈專案外其他硬體也採用Intel/Movidius晶片,如2017年的Google Clips人工智慧攝影機、2018年Google AIY Vision人工智慧視覺應用開發套件等。
不過真正受業界矚目的仍在2018年,包含NVIDIA推出T4晶片(嚴格而論是已帶晶片的加速介面卡)(圖4)、Google推出Edge TPU晶片(圖5),以及Amazon Web Services在2018年11月宣告將在2019年推出Inferentia晶片,均為推論型晶片。
圖4 NVIDIA展示T4介面卡
資料來源:NVIDIA
圖5 Google Edge TPU小於一美分銅板。
圖片來源:Google
另外,臉書(Facebook)也已經意識到各形各色的推論型晶片將會在未來幾年內紛紛出籠,為了避免硬體的多元分歧使軟體支援困難,因此提出Glow編譯器構想,期望各人工智慧晶片商能一致支援該編譯標準,目前Intel、Cadence、Marvell、Qualcomm、Esperanto Technologies(人工智慧晶片新創業者)均表態支持。
與此同時,臉書也坦承開發自有人工智慧晶片中,並且將與Intel技術合作;目前臉書技術高層已經表示其晶片與Google TPU不相同,但是無法透露更多相關的技術細節。而Intel除了在2016年購併Movidius之外,在同一年也購併了另一家人工智慧技術業者Nervana System,Intel也將以Nervana的技術發展推論晶片。
推論晶片不單大廠受吸引投入新創業者也一樣積極,Habana Labs在2018年9月對特定客戶提供其推論晶片HL-1000的工程樣品,後續將以該晶片為基礎產製PCIe介面的推論加速卡,代號Goya。Habana Labs宣稱HL-1000是目前業界最快速的推論晶片(圖6)。
圖6 Habana Labs除推出HL-1000推論晶片Goya外也推出訓練晶片Gaudi。
資料來源:https://www.convergedigest.com/2018/09/interview-habana-labs-targets-ai.html
雲端機房/快速反應 推論晶片可分兩種取向
透過前述可了解諸多業者均已投入發展推論晶片,然嚴格而論推論晶片可分成兩種取向,一是追求更佳的雲端機房效率,另一是更快速即時反應。前者是將推論晶片安置於雲端機房,以全職專精方式執行推論運算,與訓練、推論雙用型的晶片相比,更省機房空間、電能與成本,如NVIDIA T4。
後者則是將推論晶片設置於現場,例如配置於物聯網閘道器、門禁攝影機內、車用電腦上,進行即時的影像物件辨識,如Intel...
萊迪思MachXO3D FPGA搭配硬體可信任根提升安全性
萊迪思半導體公司(Lattice Semiconductor)宣佈推出用於眾多應用中保障系統韌體安全的全新MachXO3D FPGA。不安全的韌體會導致資料和IP盜竊、產品複製和過度構建以及設備遭未經授權篡改或劫持等問題。OEM可以使用MachXO3D,實現基於硬體的可靠、全面、簡單、高彈性安全機制,保障所有系統元件韌體的安全。MachXO3D可以在系統生命週期的各個階段(從生產到系統報廢)在元件韌體遭到未經授權的侵入時,對其保護、檢測和恢復。
元件的韌體已逐漸成為網路攻擊最為常見的目標。在2018年,超過30億各類系統的晶片由於韌體安全性漏洞問題,面臨資料竊取等威脅。不安全的韌體還會因為分散式阻斷服務攻擊(DDoS攻擊)、設備篡改或破壞等隱憂,讓OEM廠商遭受財務損失和品牌聲譽受損等問題。若不及時處理這些風險,可能會對企業的聲譽以及財務狀況產生不良影響。
Moor Insights總裁兼創辦人Pat Moorhead表示,受損韌體的潛在危害尤其嚴重,因為這不僅會讓使用者資料易受到入侵,而且會對系統造成永久性損壞,大幅度的降低了使用者體驗,同時讓OEM曝露在危險的不確定因素上。FPGA提供了一個韌體保護系統的可靠硬體平台,因為它們能夠並存並執行多個功能,在檢測到未經授權的韌體時,迅速地識別和回應。
當使用MachXO3 FPGA實現系統控制功能時,它們通常是電路板上最先上電且最後斷電的元件。MachXO3D可為系統控制元件添加安全功能,通過運行在安全功能時,最大化上電和斷電週期的時間,簡化安全系統的開發。
萊迪思MachXO3D改進了生產過程中的元件配置和程式設計步驟。這些優化搭配MachXO3D的安全特性,保障了MachXO3D和合法韌體之間的安全通訊,從而較好地保護了系統。這種保護從系統的製造、運輸、安裝、運行到報廢整個生命週期中都能有效保護。根據Symantec的統計,自2017~2018年間,在供應鏈階段出現的攻擊行為增加了78%。
萊迪思半導體產品行銷總監Gordon Hands表示,系統開發商通常會在系統部署後,利用 FPGA 的高度彈性特性來增強系統功能。萊迪思半導體在保持MachXO3D彈性的基礎上,增加了一個安全配置模組,由此推出了業界首個符合美國國家標準暨技術研究院(NIST)平台韌體保護恢復(PFR)標準、以控制為導向的FPGA。
AI應用推陳出新 賽靈思力轉靈活彈性平台發展
人工智慧(AI)快速成長,生活智慧化的變遷顯而易見,而要如何在變化多端AI市場中搶占商機,對此,FPGA供應商賽靈思(Xilinx)認為,面對AI的迅速發展,未來已不能倚靠單一架構滿足所有應用需求;且傳統的硬體設計方式及設計週期漸漸趕不上AI演算法(如深度學習、機器學習等)的推陳出新,因此,必須藉由靈活、彈性的平台架構才能滿足AI應用需求。
賽靈思大中華區業務副總裁唐曉蕾表示,AI興起,未來萬物互連、智慧生活的變化十分明顯。同時,各種以AI為基礎的商業模式迅速增加,例如監控、交通、醫療、工業等。
唐曉蕾說明,由此可見,AI應用相當多樣化,且屬性多不相同。也因此,在資料、記憶體結構、效能和精度上等方面都會出現客製化需求。以精度為例,有些應用需要99%甚至是99.9999%的精度,但有些應用則需97%的精度便已足夠。然而,97%和99%的精度雖然只差2%,但在運算資源需求上卻有著相當大的差異,因為要提升精度,須花費相當大的人力、物力和時間。也因此,在AI應用朝多元發展的態勢之下,為使運算時間、資源更有效率,應用業者不再只朝「最好」、「最強」發展,而是朝「最適合」,客製化需求由此而來,也因此,需要更彈性、靈活的設計平台。
賽靈思全球人工智慧市場資深技術專家張帆也指出,AI商業應用迅速增加,資料量以指數型成長,現有的運算架構已不敷使用。另外,由於各式AI創新應用不斷展露,也因此AI相關的訓練與推論呈現百花齊放的狀況,可說平均兩個星期到一個月就有一個全新的演算法提出,因此,更需要新一代具高效能、且彈性靈活的架構來因應這此一狀況,滿足AI演算法和應用。
為此,賽靈思便積極轉型,將自身定位成靈活、彈性的系統平台供應及服務業者,而不再只是單純的可編程技術/硬體供應商,例如之前所發布的Versal ACAP平台便是其中一個例子。
唐曉蕾透露,Versal字面上是由Variety與Universal組合而成,希望在技術與應用上可以兼顧多樣性與通用性。賽靈思未來的目標是打造靈活應變、萬物智慧的AIoT世界,而該平台具備括靈活可配置、可編程、高效能、低功耗的晶片架構設計等特性;同時可靈活支援低位元運算,提供端到端、低延遲運算,並擁有可拓展性的產品系列,有助於開發各種創新應用。該產品預計將在2019年第四季提供樣品,2020年初正式量產,期能藉此加速新興AI應用發展,實現在六個月內完成原型驗證,一年內產品上市的目標。
英特爾宣佈首款58Gbps FPGA收發器開始批量生產
在此次光纖通訊(OFC)大會上,英特爾(Intel)可程式設計解決方案事業部展示了獨步市場的58Gbps收發器技術,英特爾Stratix 10 TX FPGA帶來了世界首款採用58Gbps PAM4收發器技術的現場可程式設計閘陣列(FPGA),該產品現已開始批量生產和發運,支援 400Gb 乙太網部署。
英特爾公司高級副總裁兼可程式設計解決方案事業部總經理Dan McNamara 表示,會繼續推動產品創新和功能開發,以提高對網路和資料中心應用至關重要的資料獲取和處理速度,突顯出英特爾 FPGA 能夠為客戶創造的實際價值。
相比傳統解決方案,這一先進技術可將收發器頻寬提高一倍。對於需要高頻寬的應用,這種改進至關重要,此類應用包括:網路、雲和5G應用,光學傳輸網路、企業網路、雲服務提供者和5G。通過支援雙模調製、58Gbps PAM4和 30Gbps NRZ,新基礎設施可達到58Gbps的資料速率,同時保持與現有網路基礎設施的向後相容。採用58Gbps PAM4收發器技術的Stratix 10 TX FPGA可為架構師提供更高的收發器頻寬和硬化IP核,以滿足其對於更高密度和更快連線速度的巨大需求。
VeEX產品行銷副總裁Ildefonso M. Polo表示,400Gb乙太網和QSFP-DD市場正在快速發展。在市場中率先推出可移植解決方案有助於企業把握先機,更快地將實驗成果付諸實踐。VeEX很榮幸與英特爾緊密合作,推出下一代測試模組,其採用了可支援原生58Gbps PAM4生產量級FPGA技術。
加速400G Ethernet部署 Intel宣布量產58Gbps PAM4收發器
為滿足雲端、伺服器和資料中心等高速傳輸與運算需求,400G Ethernet相關建置正如火如荼進行當中。為此,英特爾(Intel)推出58Gbps收發器技術,將此一技術整合至旗下Stratix 10 TX FPGA,並在近日宣布該產品已開始量產,以加速400G Ethernet布建速度。
英特爾高級副總裁兼可程式設計解決方案事業部總經理Dan McNamara表示,該公司致力推動產品創新和功能開發,以提高對網路和資料中心的資料獲取和處理速度,並突顯出FPGA所能為客戶創造的實際價值。
據悉,相較於傳統解決方案,英特爾所推出的58Gbps收發器技術可將收發器頻寬提高一倍,以因應高頻寬應用,例如網路、雲端和5G應用、光學傳輸網路、企業網路,雲端服務提供者等。通過支援雙模調製、58Gbps PAM4和 30Gbps NRZ等特性,新的基礎設施可達到58Gbps的資料速率,同時保有與現有網路基礎設施的相容性。
至於整合58Gbps收發器技術的Stratix 10 TX FPGA,可提供多達144個收發器通道和1到58Gbps的串列資料速率,提供比現有FPGA更高的頻寬,支援系統架構擴展到100Gb、200Gb和400Gb的傳輸速率,以推動網路、網路功能虛擬化(NFV)和光傳輸解決方案發展;而包括100Gb MAC和FEC在內的各種IP內核可提供優化的性能、延遲和功耗。
此外,該產品還可與400G Ethernet FPGA 互連,僅使用八個通道便可滿足路由器、網路交換器(Switches)、主動式光纖傳輸纜線(Active Optical Cables)和高速線纜(Direct Attach Cables, DAC)、與測量設備的全新高頻寬要求,滿足更高密度、更快連線速度的應用。另外,除了58Gbps收發器技術外,英特爾也於近期揭露一款採用10奈米製程的112G PAM4高速收發器測試晶片,該晶片將整合至英特爾下一代FPGA產品,滿足未來資料中心、企業和網路環境對頻寬的需求。
RoT FPGA助力 企業伺服器韌體更安全
為解決這一個問題,有些處理元件採用集合在晶片上的硬體電路來檢測未經授權的韌體修改。然而,電路板上其他未採用此種方案的處理元件還是缺乏有效保護,整個伺服器仍然易受攻擊。美國國家標準與技術研究所(NIST)於2018年發布了NIST SP 800 193標準,訂下了一套標準的安全機制,稱為平台韌體保護恢復(PFR),它主要基於以下三個指導原則(圖1)。
圖1 平台韌體保護恢復機制三大指導原則
PFR功能主要依賴外部的硬體(晶片)帶有「信任根(RoT)」的元件。使用基於FPGA的RoT裝置的FR解決方案證明其比使用基於MCU的硬體信任根裝置更安全、擴展性更好、系統可靠性更高。而PFR開發套件能讓伺服器的原始設備製造商快速為其現有設計增加PFR功能,並充分利用這一強大的安全技術帶來的優勢。系統架構師和系統整合商如今可以更為方便地設計、實現和維護符合PFR標準的FPGA RoT裝置,而毋須擁有專門的安全專業知識。
易受網路攻擊之伺服器韌體
預計到2021年,網路攻擊犯罪造成的損失將達到6兆美元。網路駭客不斷尋找規避安全措施的新方法,目的地在:
.偷看或竊取儲存在伺服器上的專有資料(信用卡號、公司智慧財產權等)。
.繞過伺服器偷看或竊取資料。
.劫持伺服器,對其他目標進行DDoS攻擊。
.透過讓伺服器的一個或多個硬體元件無法運行,而對其造成破壞(稱之為「變磚頭」)。
由於作業系統和應用會定期更新,以便加入新功能或修復漏洞,它們很容易成為駭客入侵伺服器的最大目標。於是,組織的安防資源和戰略一般會傾向於保護作業系統和應用軟體。然而,入侵伺服器還有另外一個較少為人所知的攻擊載體,也就是所謂的韌體。
韌體是指伺服器元件(即CPU、網路控制器,片上RAID解決方案等)率先上電後立即執行的第一個啟動代碼。韌體的處理器假定韌體為一個有效可靠的起點,從中啟動並根據伺服器的配置使用它來分階段驗證和載入更高級別的功能。在某些情況下,處理元件在其運行整個執行週期內皆須借使韌體提供的功能。
國際資訊系統審計協會(ISACA)於2016年的一份調查顯示,在那些聲稱將硬體安全放在企業首位的受訪者中,超過半數「報告了至少一起受惡意軟體影響的韌體被引入公司系統的事件」,並且17%的受訪者表示「這些事件造成了實質性影響」。
韌體安全狀態
伺服器韌體可能在供應鏈的各個不同階段遭到入侵,包括:
.在原始設備製造商處,於生產過程中操作人員惡意植入受感染的韌體。
.在系統整合商處,於根據客戶要求配置伺服器時安裝未經授權的韌體。
.轉運到客戶的過程中,駭客可以打開伺服器包裝,通過線纜下載未經授權的韌體,將惡意程式碼植入組件的SPI記憶體中。
.現場運行過程中,駭客可以利用韌體的自動更新,將可繞過任何現有保護機制的偽造韌體替換掉真正的進行更新。
典型的伺服器主機板目前都使用至少兩種標準的韌體實例,分別為統一可延伸韌體介面(UEFI)和基板管理控制器(BMC),儘管這些介面能對韌體造成一定的保護作用,但也非常有限。
統一可延伸韌體介面(UEFI)
UEFI(之前稱為BIOS)是負責將伺服器韌體載入作業系統的軟體程式。UEFI在生產過程中就已經安裝就緒,用於檢查伺服器有哪些硬體元件、喚醒這些元件並將其交給作業系統。這一標準透過一種稱之為安全啟動的過程,以檢測未經授權的韌體,如果檢測到未經授權的韌體,該安全機制就會阻止硬體元件啟動。然而,安全啟動的實現和支援因元件和供應商而異,這會導致元件安全效能出現漏洞,從而被駭客利用。此外,如果非法韌體設法繞過了安全啟動,UEFI就無法將元件的韌體恢復到上一個經授權的版本並繼續運行。
基板管理控制器(BMC)
基板管理控制器是主機板上的一種專用微控制器(MCU),透過獨立的連接與系統管理員通訊以及使用感測器來監控「電腦、網路伺服器或其他硬體設備」。許多BMC會篩查各自的韌體安裝情況以確保韌體的合法性,但是對於其他的伺服器韌體則無能為力。BMC無法阻止惡意程式碼攻擊電路板上的其他韌體(圖2)。例如,如果惡意程式碼被植入元件的SPI記憶體未使用的分區,那麼BMC則無法阻止代碼進入伺服器的整個代碼流。
圖2 統一可延伸韌體介面和基板管理控制器介面只能提供有限的韌體保護。
平台韌體保護恢復標準
為解決當前韌體標準的安全問題,美國國家標準技術研究所(NIST)於2018年5月發布了一項新標準,為包括UEFI和BMC在內的所有韌體提供全面保護。這一被稱為PFR的NIST SP 800新標準旨在「提供技術指導和建議,支援平台韌體和資料的恢復,預防潛在的破壞性入侵」。它提供了一種保護系統中所有韌體的統一方法,並且可以設定為對正常系統操作不具有攻擊性,不過一旦確定未經授權的韌體正在嘗試安裝,它就會停止所有相關組件。PFR也能對各個元件可能支援的任何安全功能獨立運行。
該標準概括了保護韌體的三大關鍵原則:
保護:透過阻止對元件SPI記憶體的保護區域實施未經授權的寫入或者清除全部或部分韌體的惡意行為,以確保元件的韌體處於穩定狀態。在有些情況下,甚至對保護區讀取的操作也是禁止的。
檢測:在元件的處理器從韌體啟動之前,可以先驗證來自原始設備製造商的韌體更新裝置。若韌體有被檢測到受破壞或未經授權,則立刻啟動恢復過程。
恢復:若檢測到韌體被篡改或被破壞,處理器將從上一個已認證之韌體版本及「黃金鏡像」啟動,或者通過可信進程獲得新的韌體,啟動全系統的恢復。
PFR需要基於硬體的可信根
根據NIST的這一標準,實現安全的PFR功能需要硬體信任根(RoT)對伺服器的韌體執行保護、檢測和恢復操作(表1)。符合NIST標準的RoT裝置必須在啟動之前,且不借助任何其他外部元件的情況下對其韌體進行以上操作。硬體RoT解決方案必須具備以下特點:
.可擴展性
RoT裝置必須透過外部SPI鏡像實現保護、檢測和恢復功能,同時具備毫微秒級回應速度。這需要專用處理和I/O介面,保證伺服器的效能不受影響。
.不可繞過性
未經授權的韌體不能繞過RoT裝置,從而無法從受損的韌體件啟動伺服器。
.自我保護性
RoT裝置必須動態地應對不斷變化的攻擊面(設備或系統中未經授權的使用者所能進入的所有節點),保護自身免受外部攻擊。
.自我檢測性
RoT裝置必須能夠使用不可繞過的加密硬體模組檢測未授權的韌體。
.自我恢復性
當設備發現未經授權的韌體時,RoT裝置必須能夠自動切換到上一個黃金韌體鏡像,確保伺服器繼續運行。
.保護
啟動前是否能檢測有缺陷的韌體?是否能從有缺陷的韌體中恢復?運行期間是否保護所有韌體在系統內部更新過程中免受攻擊?
如圖3所示,RoT裝置首先上電,並透過加密方式檢查所有元件的韌體,以及是否有未經授權的修改。若RoT裝置檢測到任何破壞,則啟動可信韌體恢復過程。在極端情況下,若電路板上所有的韌體全部受損,RoT裝置還可以利用儲存在該元件中的可信韌體進行全系統恢復(透過BMC)。
圖3 NIST SP 800-193標準
BMC從可信韌體啟動後,從系統外部取得可被信任的韌體替代被破壞的韌體版本。RoT裝置隨後再次驗證所有韌體,然後啟動電路板的上電程式,在此過程中板上所有元件都將上電,並強制從已知的完好韌體鏡像中啟動,最後開始正常工作。為保證SPI記憶體不再遭受入侵,RoT將主動監測SPI記憶體和對應處理器之間的所有活動,當發現惡意程式企圖更新韌體的行為時將阻止安裝更新。
實現符合NIST標準之PFR解決方案
在PLD上實現信任根的難點在於,實現方案的同時不給原始設備製造商帶來過大的負擔。信任根硬體解決方案(包括基於PLD的解決方案)必須具備可擴展性,也就意味著它能夠保護伺服器上的所有韌體,同時回應時間達到毫微秒級。
它還要能夠使用不可修改的加密模組,透過加密檢測來確定韌體是否遭到篡改。將PFR與伺服器所有元件完整的啟動時序控制功能相結合,RoT就變得不可繞過。最後,解決方案還應能夠自動切換回最近的黃金韌體鏡像,以便在偵測到韌體被破壞時伺服器還是可以繼續運行。
按照定義,基於硬體的RoT裝置自然需要在晶片中實現。在此情況下,最常用的晶片平台即微控制器和現場可程式設計閘陣列(FPGA)。在充分考慮到FPGA和MCU的運行特點和特性後,我們發現FPGA更適用於PFR解決方案。
使用MCU實現可信根
MCU過去常在伺服器硬體產品中用於構建信任根。簡單來說,就是保留MCU層的一部分為可信執行環境(TEE),MCU的這一部分與晶片的其他區域保持物理隔離,並持續監控韌體,確保其獲得授權並正常工作。通常來說,伺服器上的PFR功能是透過向現有的硬體架構上添加RoT MCU實現的。
MCU通常難以支援驗證服務器中的多個韌體實例。這是因為它無法在沒有外部設備(如PLD)的說明下回應所有對伺服器韌體實例的系統內部攻擊(而PLD能即時監控SPI儲存設備的流量並同步檢測和回應入侵行為)。如圖4所示,使用MCU實現PFR的三個元件為:
圖4 如果需各元件同時啟動,那麼符合PFR標準、使用MCU作為可信根的伺服器還需要額外的元件(FPGA)來提供必要的高性能;在大規模的伺服器應用場景下,此種解決方案不可擴展。
RoT MCU:RoT MCU執行檢測、恢復和保護功能,是實現RoT的核心元件。
保護PLD:透過即時監控所有元件處理器與其SPI儲存體設備之間的活動,大規模實現PFR,全面保護電路板。
控制PLD:該元件整合了所有電路板級的上電和重定時序功能,包括風扇控制、SGPIO、I2C緩衝、訊號整合和帶外通訊等啟動主機板必須的功能。RoT MCU命令控制PLD為電路板上電。若需要在極端情況進行恢復,RoT MCU則命令控制PLD僅為可信恢復過程中使用的部分電路板供電。
這種基於MCU的PFR方案有諸多限制。例如,圖4電路中使用的控制PLD無法保護自身韌體,也就意味著這種架構並非完全符合NIST PFR的要求。控制PLD的代碼仍有可能被修改,讓RoT MCU失效。還有可能受到永久拒絕服務攻擊(PDoS),透過刪除這些PLD上的資訊,讓系統無法運行,從而使讓伺服器無法啟動。
保護和控制PLD存在的安全性漏洞使得元件在運輸或者系統整合過程中很難防止對韌體的攻擊。為了達到NIST SP 800 193標準,RoT MCU必須同時為控制PLD和保護PLD實現PFR功能。而使用MCU在這些元件上實現恢復和保護功能非常困難。最後,基於MCU的方案需要額外的系統級進程來檢測試圖繞過整個RoT電路的攻擊行為。
PLD滿足PFR標準
正如其名,可程式設計邏輯電路(PLD)是一種幾乎可以暫態實現遠端重新程式設計的積體電路,以適應不斷變化的場景。PLD可以在硬體層面上改變其電路,因此一旦檢測到未經授權的韌體,該韌體就無法安裝。由於PLD被設計為可重新程式設計,因此比MCU有更多的I/O介面,這讓它們可以並行運行多個功能而非按循序執行,因此它們在檢測未授權韌體時,識別和回應速度更快。
此外,PLD使用了先進的模擬軟體,讓工程師得以驗證其PLD設計的功能。工程師還可以使用這一工具來測試其針對各種韌體網路攻擊的設計是否可以保護PLD自身。與PLD相比,MCU的韌體更新需要更複雜的測試和驗證,因為MCU不能透過模擬支援功能驗證。
相反,MCU韌體的任何更新都必須經過多次回歸(試錯過程)測試,以確保新韌體不會對MCU中的其他功能產生不良影響;這一過程遠比運行PLD模擬軟體繁瑣。當我們對比PLD和MCU的特點時,會發現PLD能提供性能更優、更為可靠的平台實現基於硬體的可信根;它也成為滿足PFR標準的必要元件。
應對供應鏈攻擊 MCU/FPGA各有所長
如果出現韌體攻擊,兩種不同類型的PFR系統將採取以下應對措施(按照實施順序)(表2):
為實現簡化FPGA RoT解決方案。半導體業者如萊迪思(Lattice)開始提供PFR開發套件(圖5)。伺服器元件的原始設備製造商和系統整合商如今可以快速實現基於FPGA的PFR,滿足上市時間的要求。該套件包括一個軟體功能庫、相關的IP和3個開發板,用於實現PFR(包括保護PLD功能)。使用者可以通過Lattice Diamond軟體工具將電路板控制PLD功能添加到RoT FPGA設計中。萊迪思PFR開發套件和開發板包括:
圖5 Lattice FPGA...
英特爾推出FPGA可程式設計加速卡N3000
英特爾推出了英特爾FPGA可程式設計加速卡N3000(英特爾FPGA PAC N3000)。此產品專為服務提供者而設計,可幫助他們為5G下一代核心和虛擬化無線接入網路解決方案提供鼎力支援。英特爾FPGA PAC N3000可加速多種虛擬化工作負載,包括5G無線接入網路和5G核心網路應用。
據預計,全球互聯網協議(IP)流量將在未來五年內增長三倍。移動使用者、物聯網設備和5G用例的指數級增長將大幅增加網路建設和運營的複雜性及成本。許多新用例需要低延遲和高頻寬,可為服務提供者帶來新的收入來源,同時降低總體擁有成本。
英特爾FPGA PAC N3000是一個高度可定制平臺,支持高輸送量、低延遲和高頻寬應用。它能夠優化資料平面性能,從而降低成本,同時保持高度的靈活性。另外,它還支持端到端行業標準和開源工具,可幫助用戶輕鬆適應不斷變化的工作負載和標準。
英特爾FPGA PAC N3000旨在加速網路流量,實現高達100 Gbps的速度,並支援高達9GB DDR4和144MB QDR IV記憶體,以滿足高性能應用的需求。FPGA 具有出色的可程式設計性和靈活性,支援客戶將參考IP用於vRAN、vBNG、vEPC、IPSec和VPP等網路功能加速負載,從而打造量身定制的解決方案。
Affirmed Networks推出了面向 5G 的虛擬化、雲原生移動網路解決方案。通過採用英特爾FPGA PAC,該公司開發了一款面向5G核心網路(CN)/演進分組核心的新型解決方案——率先實現真正的200 Gbps/伺服器。英特爾FPGA實現智慧負載均衡和CPU快取記憶體優化,可顯著增強軟體性能。該產品還可説明降低功耗和延遲,在多個 5G 網路模組中展現出多樣化的服務品質特徵。Affirmed Networks 5G核心網路方案將在世界移動通信大會的英特爾展臺精彩亮相。
[MWC]FPGA晶片加速卡現身 英特爾大秀5G實力
英特爾(Intel)在世界通訊大會(MWC 2019)發布了FPGA可程式化晶片加速卡N3000(Intel FPGA PAC N3000),可以支援下一代5G核心和虛擬化無線電接入網解決方案,並協助加速網路虛擬化工作負載。
英特爾可程式化解決方案集團行銷副總裁Renette Ar表示,受到網路流量和5G影響,手機和電信業爆炸性地成長,對此英特爾設計了Intel FPGA PAC N3000,以滿足市場所需的性能、功效、完善的系統和支援5G網路的功能。
電信業者正面臨快速成長的使用需求,預計未來五年內網路流量將會增加三倍。另外由於手機用戶、物聯網設備和5G使用比例的成長,更增加了網路擴建和營運的成本和複雜度。
Affirmed Networks首席工程師Ron Parker表示,5G是一種變革性技術,它需要先進的網路虛擬化基礎和靈活的軟體架構。透過使用Intel FPGA PAC N3000,Affirmed Networks為5G核心網路和EPC開發了「第一個真正的100G/CPU插槽解決方案」,是一個雲端原生(cloud-native)的儲存解決方案。利用FPGA加速便能處理這種流量負載,並使CPU使用率降低50%。
Intel FPGA PAC N3000是一個可以高度客製化的平台,傳輸量大、具有低延遲及高頻寬的特性。為降低成本同時又能保持高度的靈活性,Intel FPGA PAC N3000允許最佳化資料層效能,並支持端對端產業規格和開源工具,使用戶能夠快速適應不斷變化的工作負載和規格。
Intel FPGA PAC N3000最高能夠為網路傳輸加速至100Gbps,並支援最高9GB的DDR4和144MB的QDR...
人工智慧結合機器視覺 創新應用源源不絕
ML增添機器視覺應用彈性
研華網路暨通訊事業群資深協理林俊杰(圖1)指出,機器視覺在製造業應用已經有相當長的一段歷史,且隨著檢測對象不同,分化出許多次領域,例如針對電子元件、電路板的自動化光學檢測(AOI)、針對產品組裝的視覺校準/對位,乃至成品/半成品的外觀瑕疵檢測等,都可以歸類於機器視覺的範疇。
圖1 研華網路暨通訊事業群資深協理林俊杰表示,機器學習可望讓機器視覺變得更具應用彈性,系統整合商更容易將業務觸角延伸到其他領域。
但現有機器視覺系統的核心,多半是以規則為基礎的軟體程式,當工業相機拍攝到過去從未見過的影像,取得的特徵值無法對應回既有的軟體系統時,就會很容易出現誤判或無法識別。這使得機器視覺系統的設計規畫跟部署,變成一項非常仰賴專家的工作。唯有針對某一類應用有深入研究,並且累積了大量經驗的SI,才能寫出符合生產線需求機器視覺軟體。而且,某個特定領域的專家,要跨到其他機器視覺的領域,也不是那麼容易的事情。
基於機器學習(ML)的機器視覺,則是完全不同的典範。一套辨識模型或演算法,經過不同的資料集訓練,就可以辨識出不同型態的圖樣,而且隨著工業相機取得的影像資料越多,累積的訓練資料增加,系統辨識的準確度還有機會進一步改善。
另一方面,對機器視覺SI業者而言,基於ML的視覺系統還有更容易跨領域應用的優勢。例如一個經過訓練的免洗杯辨識演算法,只要稍加調整跟再訓練,就可以用來辨識不同種類的杯子,例如玻璃杯、馬克杯,因為這些杯子都有一些共通的特徵值。如果是傳統的機器視覺軟體,開發過程就得從頭來過。
凌華科技資深產品經理許凱翔(圖2)指出,機器學習對機器視覺技術的應用拓展,能做出非常大的貢獻。在過去,機器視覺軟體是以預先設定的規則為基礎,工程師在開發軟體時,必須用演算法把想要偵測的影像特徵,例如瑕疵的特徵詳實描述清楚,系統判斷的準確率才會高。
圖2 凌華科技資深產品經理許凱翔認為,遇到本身帶有圖樣的待檢測物件,機器學習的優勢非常明顯。
但在實際應用上,這種方法常會遇到困難,例如待測物本身就帶有某些圖樣(Pattern)時,當瑕疵跟背景圖樣混在一起,系統要精準辨識出瑕疵的難度就很高。這種情況在電子業其實很常見,例如TFT-LCD面板、太陽能電池片(Solar Cell),本身就是有圖樣的產品,要用現有的機器視覺去抓出這類產品的瑕疵,是很大的挑戰。
對機器學習來說,圖樣辨識正是它最擅長的工作。因此,基於機器學習的機器視覺系統,只要圖像處理、判斷的速度夠快,就能為機器視覺技術的應用打開很多新的可能性。
FPGA/GPU對決戲碼上演
要讓機器視覺系統具備執行機器學習推論的能力,相關設備必須具備更高的運算能力。目前市場上已經有許多半導體業者推出機器學習解決方案,但由於各家業者的核心技術不同,因此在性能、功耗與應用彈性方面,存在很大的落差。
林俊杰指出,目前機器學習最理想的開發平台是GPU,因為GPU有最好的軟體適應性,設計迭代最方便,但如果是要部署到生產現場,GPU可能就不是那麼理想,因為GPU的功耗較高,有時還是需要搭配主動式散熱。但很多生產現場是不允許散熱風扇存在的,例如烤漆作業區,因為環境裡有粉塵,不只容易導致風扇故障,萬一有火花產生,還有可能引發爆炸。
因此,如果是要部署到現場的設備,其所搭載的GPU理想上應該採用低功耗版本,以避免設備必須仰賴主動式散熱。但低功耗版本的GPU,運算效能也相對有限,應用開發者必須對此做出取捨。
相較之下,FPGA是比較適合部署在現場的運算硬體平台,但FPGA的設計迭代過程比GPU耗時,軟體修改後,硬體描述語言(HDL)也要跟著調整,才能實現最佳化。因此,基於FPGA的機器視覺系統,開發時間必然會比基於GPU的系統來得漫長。
許翔凱則表示,GPU的開發速度最快,而且幾乎每個研究人工智慧(AI)的工程師都熟悉GPU平台的開發環境。人才跟平台的易用性,是凌華決定跟NVIDIA合作,率先推出整合Jetson TX-2嵌入式GPU的NEON-J工業相機的原因。
不過,由於Jetson-TX2是專為嵌入式應用設計的低功耗GPU,其運算能力無法跟桌上型電腦、伺服器使用的GPU相提並論,因此目前NEON-J不能執行太複雜的機器學習模型,否則會來不及對影像做出即時判斷。
即便NEON-J目前還無法執行太複雜的模型推論,但其基於機器學習的特性,已經成功為機器視覺打開新的應用市場。舉例來說,食品業的產品分類/分級應用,就很適合用NEON-J來執行。像是肉品分切作業,要依照肉品的油花分布狀況來判斷肉品等級,或是肉品出於哪個部位,就要靠圖像識別來實現,傳統基於規則的機器視覺軟體很難處理這種問題。
另一個應用案例是冷凍披薩工廠的品管。披薩廠商在產品包裝前,要先檢查披薩上的餡料數量、狀態做出檢查,才能避免NG的產品賣到消費者手上。從機器視覺的角度,這是一個典型的圖樣辨識問題,例如鳳梨、香腸的片數是否符合標準,有沒有破損,就得靠圖樣識別來做。因為披薩上的鳳梨、香腸切片可能有大有小,傳統的機器視覺分析軟體遇到這種待測物,容易出現誤判。
ASIC加速器設計過於局限 不利機器視覺應用
至於眾多大廠與新創公司紛紛布局的專用加速器,對機器視覺開發商來說,吸引力恐怕很有限。林俊杰認為,專用加速器最大的問題在於彈性不足,只能對特定模型發揮加速效果,如果機器視覺系統使用的模型不在其支援範圍內,不是加速效果不好,就是根本無法執行。
這正是在機器視覺系統中使用專用加速器最大的問題--機器視覺要偵測的物件或圖樣有很大的變異性,使用的模型可能不是主流。相較之下,安全監控產業的需求單一,如果需要用到人工智慧,不外是用來實作人臉識別、人流偵測、虛擬圍籬等功能,使用的模型也只有固定幾種,因此晶片開發商在設計晶片時,可以很容易掌握客戶的規格需求。
此外,跟安全監控相比,機器視覺是一個規模更小的利基市場,因此晶片商恐怕不會這麼快就將產品線延伸到機器視覺相關領域。因此,林俊杰預估,至少在未來兩到三年內,機器視覺開發商如果要採用人工智慧,處理器的選擇應該只有GPU跟FPGA兩種。
訓練資料集取得不易為最大發展障礙
總結來說,對機器視覺應用來說,機器學習是一個很值得期待的互補型技術。以規則為基礎的分析軟體,在量測物件尺寸、辨識QR Code、條碼,以及引導機器手臂在2維平面上運作,是很有效率的,可靠度也高。但如果是要處理跟圖樣有關的問題,機器學習是比較理想的解決方法。
不過,對大多數基於機器學習的系統來說,訓練資料的數量跟品質,還是許多開發者所面臨的最大難題,基於機器學習的機器視覺也不例外。現在許多網路大廠都已經提供雲端訓練工具,因此,開發者要訓練自己的模型,門檻已經比以往大為降低,但要取得足夠且高品質的訓練資料集,還是要投入很多資源。
近幾年中國掀起人工智慧熱潮,也促成一個新的行業--資料標籤公司誕生,但這些專門提供資料標籤建置的服務業者,通常沒有足夠的能力處理工業製程中所拍攝的影像。舉例來說,金屬加工件的邊緣出現毛邊,但程度要多嚴重才應該被判定不良品,就只有那個行業的老師傅能準確判斷,不在該行業的標籤建置人員很難做好這項工作。因此,即便是採用機器學習技術,SI想要跨到新的領域,還是有一定門檻要跨過。
許翔凱就透露,有一家客戶曾經把資料集建置的工作外包給專門做資料標籤的公司,但據此訓練出來的模型,準確率跟預期有一段落差。客戶回頭檢討才發現,訓練模型用的資料集有很多標籤是錯誤的,因此訓練出來的模型當然不準確。
因此,如果工廠真的有意導入基於機器學習的視覺系統,在資料建置方面,最好還是不要假他人之手。讓自家產線上的作業員協助標記,成果會比外包好,但相對的也會增加作業員的工作負擔。
除了標籤的問題外,不良品的影像資料取得,其實是很困難的事。以凌華自己的產線為例,一條成熟的生產線,產品良率至少都在9成以上,不良品的數量非常少。這意味著凌華很難收集到不良品的影像去進行模型訓練。
也因為不良品的影像很難取得,因此有很多研究者嘗試用變造影像的方法來擴充資料集,例如把影像扭曲、旋轉、添加雜訊等。從一些實驗數據來看,這種方法可能有效,但在工業應用上,用這種資料集訓練出來的模型能不能用,還需要進一步驗證。此外,也有一些新的模型只需要少量訓練影像資料,就能達到不錯的準確率,但這些模型是否適合機器視覺應用,也還需要進一步研究。
因此,機器視覺系統要改以機器學習為基礎,並大量普及到工業現場,還需要一些時間來醞釀。但整體來說,因為以機器學習為基礎的機器視覺,對各種應用情境的適應能力較佳,因此長期來看,SI或軟體開發者應該還是會逐漸轉向機器學習。
貿澤電子供貨Microsemi PolarFire FPGA
貿澤電子(Mouser Electronics)即日起開始供應Microsemi的PolarFire現場可程式閘陣列(FPGA)。快閃記憶體型的中階PolarFire FPGA提供300K的邏輯元件,耗電量比相近的SRAM型FPGA低達50%。此裝置提供了同級最佳的安全性、單事件翻轉(SEU)免疫結構和串化器/解串化器(SerDes)效能,適合通訊、國防、航空、工業自動化和物聯網(IoT)等市場的各種應用。
貿澤電子所供應的Microsemi PolarFire FPGA具備低功率且尺寸小巧,針對數量持續增加的聚合10Gbps連接埠,提供高成本效益的頻寬處理能力。裝置整合非揮發式FPGA架構、12.7Gbps收發器效能、1.6Gbps差分輸入與輸出(I/O)、強化安全性IP與加密處理器。28nm CMOS矽晶片經過功率最佳化,擁有中階FPGA最低的靜態功率,另外Flash Freeze模式則提供更低的待機功率。
貿澤亦供應Microsemi PolarFire評估套件,用於協助工程師評估多種應用,例如高速收發器、10Gb乙太網路、IEEE1588、JESD204B、SyncE及SATA。此套件的連線包括高腳位數FPGA夾層卡(FMC)、六個SMA、PCIe邊緣連接器、雙Gigabit乙太網路連接器、SFP+外框和USB轉UART終端。
套件內含一年Gold軟體授權,此授權包含Libero SoC PolarFire設計組,是一套功能完整、易於學習又好上手的開發工具。此組合整合了符合業界標準的Synopsys Synplify Pro合成工具與Mentor Graphics ModelSim模擬工具,擁有同級最佳的限制管理與除錯功能。