放眼未來,在面對更先進的神經網路時,能隨時進行調整的靈活性是我們關注的焦點。現今廣受歡迎的CNN正加速被新型的先進架構所取代。然而,傳統系統單晶片(SoC)的設計必須要使用當前的神經網路架構知識,而且從開發到部署通常需花費約三年的時間,像RNN或膠囊網路(Capsule Network)等新型神經網路,可能會使傳統SoC變得低效,且難以提供保持競爭力所需的效能。
因此,若嵌入式AI要滿足終端使用者的期望,特別是要跟上可預見未來裡不斷提升的需求,就必須採用更加靈活的自我調適運算平台。我們利用使用者可配置的多重處理系統晶片(MPSoC)元件,整合主應用處理器和可擴展的可編程邏輯結構,其包含可配置的記憶體架構與滿足可變精度推論所需的訊號處理技術,來滿足上述需求。
推論精度最佳化提升效能
在傳統的SoC中,決定效能特性的因素如記憶體架構和運算精度是固定的,透過核心CPU定義,最小值通常為8位元,即使針對特定的演算法最佳精度可能更低。而MPSoC因能夠支援可編程邏輯最佳化至電晶體層面,因此能根據需求讓推論精度降低至最低1位元。此外,這類元件還包含成千上萬可配置的DSP分割(Slice),能高效處理乘法累加(MAC)運算。
當能自由地最佳化推論精度時,就能根據平方定律提供剛好滿足需求的運算效率。也就是說,單一位元的運算當用1位元核心執行時,相對於用8位元核心完成時,所需的邏輯僅為1/64。此外,MPSoC能讓推論精度針對每層神經網路做出不同最佳化,進而以最大的效率提供所需的效能。
MPSoC晶載記憶體提升4倍
除了透過改變推論精度來提高運算效率之外,配置可編程晶載記憶體的頻寬和結構,能進一步提高嵌入式AI的效能和效率。當運行相同推論引擎時,客制化的MPSoC與傳統運算平台相比,晶載記憶體可能達到4倍以上,而記憶體介面頻寬可能達到6倍。記憶體的可配置性能幫助使用者降低瓶頸,並最佳化晶片資源的利用率。此外,典型的子系統僅具備有限的晶載整合快取記憶體,因此必須與外接儲存裝置頻繁互動,導致延遲與功耗的增加。在MPSoC中,大多數記憶體交換都在晶片上進行,因此可以大幅提高速度,且能省下超過99%因與外接記憶體互動所產生的功耗。
解決方案的尺寸大小也越來越重要,特別對採用行動AI的無人機、機器人或無人/自動駕駛汽車而言更是如此。在MPSoC的FPGA結構上運行的推論引擎可以僅占用傳統SoC八分之一的晶片面積,這能讓開發者在更小的元件中建構功能更強大的引擎。
此外,MPSoC元件系列為設計人員提供豐富選擇來建置推論引擎,能支援最節能、成本效率最高、面積占用最小的方案,進而滿足系統效能需求。一些通過汽車應用認證的零件具備硬體功能安全特性,達到業界標準的ISO 26262 ASIL-C安全規範,這對自動駕駛應用而言至關重要。例如賽靈思的Automotive XA Zynq UltraScale+系列採用64位元四核Arm Cortex-A53和雙核Arm Cortex-R5處理系統(圖1),以及可擴展的可編程邏輯結構,因此就能在單個晶片上整合控制處理、機器學習演算法和安全電路,同時具備故障容錯能力。
現今嵌入式推論引擎可建置於單個MPSoC元件內,且功耗低至2瓦,這對行動機器人或自動駕駛汽車而言都是合適的功耗水準。傳統運算平台即便現在也無法以這麼低的功耗運行即時CNN應用,未來也不太可能在更嚴格的功耗限制條件下,滿足更快回應和更複雜功能的需求。採用可編程MPSoC的平台能夠提供更高的運算效能、更高的效率,並在15瓦以上的功率水準下減少面積和減輕重量。
若開發者不能在其專案中輕鬆應用這些優勢,那麼這些可配置型多平行運算架構的好處就僅限於學術領域。因此,若想要成功應用,需要有適當的工具來協助開發者最佳化其目標推論引擎的建置。為了滿足相關需求,賽靈思不斷擴展其開發工具和機器學習軟體堆疊的生態系統,並與專業夥伴合作,一起簡化與加速電腦視覺和視訊監控等應用的建置。
藉由SoC的可配置性能為目前應用創建最佳平台,也讓AI開發者能夠靈活地跟上神經網路架構快速發展演進的需求。業界遷移至新型神經網路的可能性,對於平台開發者來說是一個巨大的風險。然而,可重配置的MPSoC透過重配置能力,以及當前最先進的策略來建構最高效的處理引擎,能讓開發人員靈活地回應神經網路架構方式的變化。
工業控制、醫療設備、安全系統、機器人和自動駕駛汽車等越來越多的設備內已嵌入AI,利用可編程邏輯結構的MPSoC元件所具備的自行調適加速技術,是保持快速反應、高階功能及維持競爭力所需的關鍵。