- Advertisement -
首頁 標籤 FPGA

FPGA

- Advertisment -

讓資料動起來 領域專用架構思維不一樣

自從2017年度圖靈獎(Turning Award)得獎人John Hennessy與David Patterson在領獎演說中強調領域專用運算架構(Domain Specific Architecture)與領域專用程式語言(Domain Specific Language)的重要性後,在資訊科學與半導體領域掀起了一股討論熱潮。不同於通用運算架構,領域專用運算架構強調更高的運算效能與更低的功耗,但不像CPU或GPGPU,可以用來執行各種運算任務。目前市場上有哪種處理器比較接近兩位圖靈獎得主所描述的領域專用運算架構呢?答案是現場可編程閘陣列(FPGA)。 賽靈思(Xilinx)技術長Ivo Bolsens表示,電路微縮所能帶來的運算效能提升、功耗改善,在很多年前就已經趨緩(圖1)。為了滿足人工智慧(AI)等運算任務對效能的高度需求,半導體業界必須設法另闢蹊徑。 圖1 過去40年處理器效能演進 這也是Hennessy與Patterson之所以提出領域專用架構最主要的原因。目前業界最常見的CPU,是典型的通用(General Purpose)處理器,這類處理器在執行帶有各種決策樹的複雜演算法時很有效率,而且有各式各樣的函式庫(Library)支援,但CPU的效能成長空間已經很有限了。 至於向量處理器(Vector Processor),例如DSP與GPU,在執行可以高度平行化的特定運算任務時,有著非常高的效率,且歷經多年發展,現在這類處理器能執行的運算任務,也越來越多元。不過,因為DSP、GPU與CPU一樣,還是採用不具彈性的階層式記憶體架構,也就是大家常聽到的L1、L2甚至L3快取,因此在記憶體延遲、存取效能方面有許多瓶頸。 如FPGA這類可編程邏輯元件(PLD),則可按照使用者需求客製化特定的運算功能,擁有極低的延遲性能,特別適合強調即時性的運算任務,且其資料存取結構也跟傳統的處理器不同。但相對的,如果要修改演算法,在FPGA上往往得花好幾個小時,不像純軟體的CPU、GPU,只要花幾分鐘就能把程式重新編譯(Compile)完成。這也是為何FPGA會被視為領域專用處理器的原因--雖然FPGA一樣可以用來執行各種運算任務,但它的轉換過程遠比純軟體搭配通用處理器來得漫長。 不過,在強調運算能力跟效能/功耗比的今日,領域專用架構處理器還是有很大的發展潛力。賽靈思(Xilinx)技術長辦公室研究員Ralph Wittig認為,人工智慧(AI)等對運算效能需求極高的應用,還是需要使用領域專用架構硬體來運算,才能在運算效能、功耗跟整體成本之間取得最佳平衡。 根據賽靈思的觀點,基於FPGA的領域專用架構有三個元素,分別是適應性硬體、近記憶體運算與可支援多樣化資料傳輸模式的晶片內互連。以賽靈思的Versal適應性運算加速平台(ACAP)為例(圖2),該晶片架構內含多顆AI核心、用來直接存取外部記憶體的DMA,同時每個核心都帶有小容量的記憶體,以及扮演晶片內部互聯骨幹的Network on Chip(NOC)。 圖2 ACAP硬體架構 AI核心本身是軟體可編程的處理器,但藉由NOC,不同核心所配備記憶體是可以直接互聯的。這意味著如果使用者需要,可以把每個核心所帶有的記憶體互聯起來,視為一個容量超大的快取。不像現有CPU或GPU採用階層式的快取記憶體,當核心要存取記憶體內的資料時,視資料存放的位置,可能會遇到得等待數十到數百個循環週期(Cycle Time)才能得到資料的情況。除了存取效率外,傳統基於快取記憶體的架構,還會有不必要的資料複製、浪費記憶體容量的問題(圖3)。 圖3 傳統多核心架構的資料存取 也因為FPGA內部的互聯是非常彈性的,使用者可以依照自己的應用需求,實現各種不同的資料搬移模式,從業界最熟悉的管線式(Pipeline)結構,到一對一/一對多串流式(Stream),甚至廣播式(Broadcast)結構都能支援。這使得FPGA的使用者可以針對特定應用需求,使用效率最好的資料搬移模式來處理大量資料。 根據賽靈思的估計,這種架構讓Versal可以用存取L1快取的延遲,存取到10倍的記憶體容量。這不僅提升了運算效能,同時也降低晶片功耗。存取記憶體是非常耗電的,以典型的45奈米、0.9伏特製程來說,處理器要存取8kByte SRAM,就要消耗10pJ能量;但如果是要存取1MByte SRAM,就要消耗100pJ;但如果處理器核心要存取外部DRAM,就至少要消耗1.3~2.6nJ,能量消耗可達2,000倍。 Wittig總結說,如果設計人員非常在意處理器功耗跟運算效能,應該注意以下三個原則:首先,讓資料保持流動,只有在必要的時候才作暫存;其次,如果要做資料暫存,應該盡可能使用容量最小的記憶體;第三,盡可能把資料存放在晶片內的記憶體,不要放到外部DRAM上。 這也是一種思維的翻轉。在通用運算架構裡,是處理器下指令,把資料搬到核心來處理,但在領域專用架構裡,為了追求更好的運算效能跟降低功耗,是處理單元要盡量貼近資料。 ACAP架構因為具有「適應性硬體」、「近記憶體運算」與可支援「多樣化資料傳輸模式的晶片內互連」這三大特性,目前已經是一個相當理想的適應性資料流處理器。接下來,ACAP架構會朝強化平行運算的方向前進,利用ACAP架構的適應性互聯跟低延遲特性,讓眾多AI核心有更大的發揮空間。
0

BittWare宣布對Eideticom進行戰略投資

Molex旗下的公司BittWare是採用了FPGA技術的企業級NVMe儲存平臺領域的供應商,宣布將對Eideticom進行戰略投資並開展協作,後者在高增長的新興計算儲存市場上是廣受認可的領導者。 BittWare市場副總裁Craig Petrie表示,我們對Eideticom的投資以及與其的協作將加快基於NVMe的計算儲存解決方案的推出,並且協助我們的客戶在降低風險和成本的同時,實現創新。憑藉分享兩種尖端產品的詳細資訊,我們正在拓展BittWare在這個新市場上的領導力,250-E1S是全球第一種符合E1.S EDSFF標準的FPGA NVMe加速器。第二個產品是250-HMS,與IBM聯合開發而成,它充分利用了OpenCAPI中25Gbps高速序列介面的高效能,在新興的儲存級記憶體領域,可以為資料庫加速提供技術與效能上的絕佳組合。 Eideticom首席執行長Roger Bertschmann表示,我們非常高興Molex能夠作為Eideticom的投資方。與Molex旗下的BittWare公司協作,將有助於加快我們的NoLoad計算儲存處理器的開發過程,並且為市場提供激動人心的新方案來解決充滿了挑戰的資料處理問題。在Molex的協助下,Eideticom可以更加高效的擴大規模,更好的服務於我們不斷增長中的全球客戶群。 這個BittWare計算儲存產品組合符合PCIe產業標準、U.2,以及EDSFF對形狀係數的要求。這些開放架構的NVMe平臺可以由從事內部能力開發的客戶進行完全的程式設計,或者作為準備就緒的預組態解決方案來交付,其中配有Eideticom的NoLoad IP。在使用NoLoad預程式設計後,每個計算儲存服務設備都可以作為一個常規的NVMe命名空間來提供給主機作業系統,並且綁定到標準的NVMe驅動器上。這樣客戶就可以不再需要開發或者使用專用的驅動器或軟體堆疊。相反,客戶可以繼續使用他們首選的Linux、Windows或VMWare作業系統以及各種基於主機的應用。  
0

四大垂直應用先舉紅旗 中國半導體市場逐漸關門

除了斥資扶植之外,近日台灣工業電腦業界盛傳,中國政府已發布紅頭文件,針對國防、網路、金融、運輸這四大類垂直應用,設備供應商應盡可能使用中國本土IC設計供應商所提供的元件,以維護國家安全。由於事涉敏感,多家工業電腦業者都不願公開證實,但私下確認已收到政府有關部門的通知,並已經開始針對產品線做出調整。 工業電腦業者表示,未來出貨給中國的工業電腦,如果最終應用落在上述四大領域,將會推出採用「中國芯」的設備。不過,業者也補充說明,對台商而言,中國政府的指令只會影響到三個領域的業務拓展,因為台商基本上無法接觸到國防工業市場。 中國半導體本土化逐步落實 在半導體業內,關於中國政府將對部分採購標案內容進行限制,要求設備供應商必須使用中國自產晶片的傳言,已經醞釀了好幾個月。據業內人士表示,由於中國本土的上海兆芯及天津海光已經具備x86處理器的開發與供貨能力,加上電源、類比等領域,也有許多中國當地的IC設計公司可以提供解決方案,因此中國政府正在考慮對部分設備採購標案進行限制,要求設備供應商必須使用中國本土廠商提供的晶片。 日前,工業電腦大廠研華在法說會上表示,該公司針對今後5年,已提出了新的成長計畫,強調將透過深度在地化及人才培育等方式,為研華今後奠定成長的基礎。 研華表示,將針對北美、歐洲、中國大陸與新興市場等四大區域,分別設計制定從2019年到2024年的5年成長計畫。規劃中,將擴大各區域在地投資與人才經營。期待藉由IoT SRP(Solution Ready Package)的軟硬整合服務,驅動新一波的成長。此外,研華也透露,目前物聯網軟體平台部分,已有超過150家付費VIP客戶;而2020年將會是SRP由平台建置階段,邁入應用整合階段的關鍵時刻。 在中國市場方面,根據規畫,研華北京二期大樓增建計畫目前已進入建築規劃階段,透過投資展現研華深耕大中華市場的決心,擴大相關軟體研發人才的投資,並加速工業物聯網第二波在能源、製造等不同產業應用領域的實現。 研華中國區總經理羅煥城指出,大中華市場過去十年是研華穩定的成長引擎,期待在未來5年也仍會是重點成長區域。因此,該公司將在中國市場率先推出以客戶為導向的服務內容,期望藉此實踐5年營收倍增的目標。此外,羅煥城也將「中國芯」議題拉上檯面,並表示為了符合中國政府跟當地市場、客戶的要求,該公司將會推出採用中國本土晶片的設備產品,這也與研華落實全球在地化的精神一致。 事實上,除了研華之外,針對中國市場,多家台系工業電腦業者也有意推出使用中國當地晶片的設備產品,但大多數業者都希望對此保持低調,不願具名評論。有工業電腦業者指出,中國政府目前確實已經發出正式公文,也就是俗稱的紅頭文件,內容要求只要是應用在國防、網路、金融與運輸這四大具敏感性的垂直應用,設備供應商就應該盡可能使用中國本土供應的晶片,只有在中國本土晶片商還無法提供解決方案,或產品技術還不夠成熟的情況下,才可以使用外商提供的晶片。 來自工業電腦產業的消息,證實了幾個月前在半導體圈子裡傳得沸沸揚揚的消息,正在逐步成為現實。對國際半導體業者而言,工業電腦屬於利基型市場,目前中國的政策要求,又僅針對工業電腦中比較具有敏感性的應用做出規範,因此外商半導體業者在中國的營運不會立刻受到巨大影響,但倘若中國政府持續推動半導體進口替代政策,其半導體市場對外開放的程度,恐怕會越來越低。 半導體供應商各自面臨不同挑戰 在這波中國工業電腦/工業設備半導體本土化的浪潮下,來自不同地區的半導體供應商,由於產品跟經營策略的差異,受到的影響跟挑戰也大不相同。 整體來說,相較於歐美日,台灣跟韓國的邏輯/類比晶片供應商在工業市場的著墨較少,而是以消費性市場為主,因此受到的影響較為輕微。但由於韓國的半導體出口是以DRAM跟NAND Flash為主,在中國也大力培植自家記憶體產業的情況下,受到的影響不可等閒視之。這或也是三星電子(Samsung Electronics)積極強化晶圓代工布局,要與台積電一爭長短的主因之一。 至於歐美日晶片業者,在工業市場的布局則遠比台廠來得深,因此在這波中國工業用半導體市場逐步本土化的過程中,將是首當其衝。當然,這些國際外商也不是省油的燈,只要手上還握有中國本土業者還沒有完全掌握的核心技術,暫時就還不用擔心會被中國本土晶片商取代。這個情況在射頻前端、FPGA、GPU等領域最為明顯,例如目前中國半導體業者在低雜訊放大器(LNA)、高速數位類比轉換器(ADC)等射頻前端會用到的元件方面,技術還不是很成熟;至於FPGA,中國半導體產業才剛開始有廠商投入。 至於台灣的半導體產業,在這波中國半導體市場逐漸展開進口替代的過程中,究竟會受到何種影響,則得看個別公司在產業鏈中的地位而定。對半導體製造族群來說,由於中國封測產業的技術能力跟台廠的差距比較小,因此相較於前段製造,後段封測業者的壓力是比較大的。至於前段製造,目前台積電跟穩懋,在良率、供貨能力上,跟中國同業相比,還是有一段比較明顯的領先優勢。因此,在中國半導體市場走向進口替代的過程中,前段製造還比較不須擔心,甚至還有可能接到新的客戶訂單。 至於在IC設計端,前面已經提到,因為中國的政策是從台灣業者布局較少工業領域開始推動,故即便營運會受到些許衝擊,影響還是不大。事實上,台灣IC設計業者之中,還有不少公司根本就沒有工規產品線。 另一方面,有部分台灣IC設計業者早已透過與中國合資設立子公司,完成在地化布局。因此,在中國政府推動半導體進口替代的大計畫中,這些台商已經被中國視為「自己人」。例如上海兆芯本身就是威盛跟中國政府的合資企業,其x86處理器的效能雖然還不能與英特爾(Intel)、超微(AMD)的最先進產品相提並論,但對工業應用來說,其實也已經夠用了。 中國客戶自造晶片威脅更大 雖然目前中國政府僅就與國安有高度關聯性的電子設備做出半導體供應本土化的要求,但對台灣的半導體產業來說,中國半導體市場逐漸封閉,仍是一個不可等閒視之議題。除了華為早已有強大的晶片設計能力之外,OPPO、小米、格力等手機/消費性電子產品業者,也都開始在晶片設計領域投入重資,想開發出自己的晶片解決方案。 雖然業界對於中國的終端應用廠商投入晶片研發一事,一直有不少懷疑的論調,畢竟晶片設計本身也是一門專業,為了喝牛奶而養一頭牛,不見得是最具經濟效益的選擇,但在中國政府有意推動半導體進口替代的情況下,終端應用廠商投入研發自己的晶片,仍會受到政府鼓勵。加上EDA工具跟IP生態系統的成熟,現在要開發出一款晶片,技術難度已經比過去要低。只要這些中國終端產品業者堅持下去,假以時日,還是有機會開發出自己的晶片。 換言之,對台灣的IC設計公司來說,最大的隱憂或許不在中國政府頒布的法令規定,而是當地客戶對半導體領域的雄心壯志。事實上,相較於政府直接指點江山,匡列重點半導體品項並投入資金發展,官方結合民間力量發展半導體產業的作法,對台灣的半導體產業是更有威脅性的。 用計畫經濟的思維來發展半導體,其實是風險很高的作法。科技進步日新月異,但計畫經濟通常是五年為一期,要負責產業規畫的官員猜測五年後半導體市場會是何種風貌,有哪些現在還沒成熟的技術、產品會竄起,是非常困難的事。計畫經濟適合運用在某些已經存在多年的產品、市場,例如CPU、記憶體,就還有計畫經濟發揮的空間。但官民力量結合則不然,民間企業本身對市場、技術的脈動,會有更靈敏的嗅覺,成功的機率也會比較高一些。
0

迎向AI新時代 英特爾出貨10奈米FPGA

5G時代來臨,在這個以數據為中心的網路世界,傳輸量的提升與延遲的降低成了最重要的議題。同時,人工智慧(AI)、深度學習等需要龐大的資料量以及客製化解決方案的技術不斷革新。針對此需求,英特爾(Intel)發布10奈米製程Agilex FPGA晶片,並於日前宣布供貨。 英特爾日前宣布已出貨旗下第一款10奈米製程Agilex FPGA晶片給早期客戶群,包括雲端運算大廠微軟(Microsoft)、Mantaro Networks、Silicom等。英特爾表示,客戶可使用最新10奈米製程Agilex FPGA晶片進行5G網路的開發並加速數據分析解決方案的研發。 英特爾網路與自定義邏輯團隊總經理Dan McNamara表示,英特爾Agilex FPGA產品從架構、封裝、設計到開發人員皆使用英特爾的技術。再加上eASIC的技術,英特爾不管是在製程、效能還是成本方面,都可以按照客戶的要求,非常快地進行模組客製化或者最佳化。Agilex FPGA可以創建更智慧、更高頻寬的網絡,並透過加速AI和其他分析功能在邊緣、雲端和整個網路提供更好的表現。 英特爾Agilex系列結合了多項英特爾創新技術,包括基於英特爾10奈米製程的第二代HyperFlex FPGA架構,以及基於英特爾創新型異質3D SiP技術,將類比、記憶體、客製運算、客製I/O、英特爾eASIC和FPGA邏輯結構整合到一個晶片封裝中。英特爾在從FPGA到結構化ASIC的遷移過程中,可提供帶有可重複使用IP的客製邏輯連續系統(Custom Logic Continuum)。 英特爾Agilex FPGA提供創新的新功能,有助於加速未來的解決方案。Agilex FPGA支持即將推出的Compute Express Link(CXL)。同時使用第二代HyperFlex FPGA架構,最高可提升40%的效能並降低40%的總功耗。 Agilex適用於處理資料、儲存資料和傳輸資料。在資料處理方面,它採用了英特爾自己開發的第二代HyperFlex FPGA架構,可提供相當好的效能。在資料儲存方面,除了傳統的DDR5介面,也包括高頻寬儲存介面HBM。同時使用英特爾的Optane技術,可以在Xeon和處理器之間建立密切的記憶體一致性。在資料傳輸方面提供112G的資料傳輸速率。
0

Xilinx推出具900萬個系統邏輯單元全球最大FPGA

賽靈思(Xilinx)宣布推出全球容量最大的FPGA「Virtex UltraScale+ VU19P」,擴展旗下16奈米Virtex UltraScale+系列。VU19P內含350億個電晶體,擁有有史以來單顆元件上最高的邏輯密度與I/O數,用以支援未來最先進的ASIC與SoC技術之仿真(Emulation)與原型開發,亦能支援測試、量測、運算、網路,以及航太與國防等相關應用。 VU19P樹立了FPGA產業的新標竿,其擁有900萬個系統邏輯單元、高達每秒1.5 Terabit的DDR4記憶體頻寬、高達每秒4.5 Terabit的收發器頻寬及超過2,000個使用者I/O,不但能促成現今最複雜SoC的原型開發與仿真,還能支援各種複雜的新興演算法的開發,包括用在人工智慧(AI)、機器學習(ML)、視訊處理及感測器融合等領域的演算法。VU19P的容量比前一代業界最大容量的「20奈米Virtex UltraScale 440 FPGA」高出1.6倍。 賽靈思產品線行銷與管理資深總監Sumit Shah表示,VU19P不僅能協助開發者加速硬體驗證,還能助其在ASIC或SoC可用之前就率先進行軟體整合。這是賽靈思刷新世界紀錄的第三代FPGA;前兩代分別為Virtex-7 2000T與Virtex UltraScale VU440,現在則推出Virtex UltraScale+ VU19P。但是,伴隨此次新產品發布的,不僅僅是精進的晶片技術,我們還為之提供了穩定且經驗證的工具與IP支援。 透過一系列廣泛的除錯(Debug)、可視性工具(Visibility Tools)與IP支援,VU19P為客戶快速設計與驗證新一代的應用與技術,提供了一個全方位的開發平台。軟硬體的協同驗證讓開發者能在取得實體元件前,就先著手軟體與客製化功能的建置。此外,透過運用賽靈思Vivado設計套件能協同最佳化設計流程,以降低成本與投片風險、改善效率並縮短上市時程。 Arm設計服務總監Tran Nguyen表示,Arm仰賴賽靈思元件作為驗證新一代處理器IP與SoC技術的工藝。新推出的VU19P將進一步支援Arm及我們的產業生態系中的業者,加速實現設計、研發與驗證我們最遠大的技術發展藍圖。
0

賽靈思Xilinx與工業局和資策會共創智慧新契機

有鑑於AIoT物聯網結合人工智慧浪潮,全球大廠紛紛布局(FPGA)可程式邏輯閘陣列)相關發展。近年來,受全球5G、深度學習及邊緣運算等產業趨勢崛起,FPGA半導體大廠賽靈思Xilinx積極開拓相關應用領域,包含資料中心、5G通訊、智慧車等創新領域。並推出之適應性運算加速平台ACAP,提供高度靈活可程式設計晶片,以及一系列先進的軟體和工具,驅動從消費電子到汽車電子,再到雲端之多樣化創新應用。 為推動產業創新發展,加速企業數位轉型,財團法人資訊工業策進會地方創生服務處執行工業局智慧電子學院計畫。2019年與賽靈思Xilinx展開人工智慧 (AI) 人才培訓合作,發展出一系列培訓計畫,協助產業專業人員快速進入FPGA的設計開發,從建立FPGA基礎觀念至進階應用設計,推動各新興領域跨域智慧發展新契機。 工業局智慧電子學院將於10/18、10/25舉辦首波FPGA實作開發課程,邀請具賽靈思Xilinx FPGA開發經驗之一元素科技專業講師講授,課程從FPGA基礎觀念至設計流程講解,使學員熟悉FPGA的設計開發步驟,並加入嵌入式系統 (SoC) 設計的開發流程說明。除介紹SoC架構,同步搭配賽靈思Xilinx的SoC-Zynq (FPGA+ARM)進行講解。
0

XPU世代來臨 POL模組解決方案抬頭

在人工智慧(AI)、機器學習(ML)的風潮席捲下,運算設備所使用的核心處理器不再定於x86一尊。包含現場可編程閘陣列(FPGA)、繪圖處理器(GPU)乃至各種以安謀(Arm)架構為核心的ASIC處理器,都開始出現在伺服器等資訊產品上。對電源解決方案供應商而言,這些非x86處理器帶來了全新的產品規格需求,創造出新的市場,但也帶來新的考驗。 懷格(Vicor)應用工程師楊有承表示,對電源解決方案供應商來說,負載點(POL)電源以前是個相對單純的市場。除了少數利基型應用產品是以非x86處理器為核心之外,絕大多數的伺服器、個人電腦都是採用x86架構,特別是英特爾(Intel)的x86處理器。也因為如此,電源業界只需要依照英特爾頒布的VR規範設計產品,就有機會爭取到伺服器、個人電腦的訂單。 然而,隨著機器學習開始大行其道,現在市場上出現越來越多基於非x86的運算系統,例如基於NVIDIA GPU、基於Arm架構的ASIC,以及使用FPGA作為主要運算核心的新型伺服器跟板卡,現在在市面上的能見度,都比以往高很多。從電源解決方案供應商的角度來看,這意味著高度客製化的POL方案市場將同步升溫,產品規畫不用跟隨英特爾電壓調節器(VR)規範,也有可觀的生意可做。 但對電源解決方案供應商而言,這些新市場、新商機同時也意味著新的挑戰。以NVIDIA專為AI模型訓練、推論的高階GPU為例,其晶片因為採用最先進製程,工作電壓只有0.8V,但電流需求卻極為驚人,可達500A。在電流量如此巨大的情況下,電壓調節器必然得配置在離主處理器非常接近的位置,否則功率傳輸的損耗極大。但電壓調節器本身是雜訊很大的元件,若配置在離處理器太近的地方,可能會對處理器正常運作造成干擾。 GPU這類新型負載點電源對電流的規格需求極大,可達數百安培。這使得電源模組必須配置在非常靠近處理器的位置,帶來新的設計挑戰。 事實上,大電流的趨勢還會繼續向前推進,以滿足處理器越來越高的功率需求。目前Vicor與客戶正在合作的下一代產品,對連續電流的規格要求已經上看1,000A。這也意味著POL模組必然要與主處理器放在同一個封裝基板上,甚至直接配置在處理器封裝基板背面,主處理器的正下方,才能把POL跟處理器的距離縮到最短。如何處理POL的雜訊問題,會是電源解決方案業者搶食這個市場商機所需面對的最大挑戰。  
0

Xilinx連續兩年贏得年度最佳視覺產品獎

賽靈思(Xilinx)宣布,日前在加州聖塔克拉拉登場的嵌入式視覺高峰會上,賽靈思AI平台獲得2019年度最佳視覺產品獎中最佳雲端解決方案的殊榮。此獎項由嵌入式視覺聯盟所頒發,旨在表揚產業領導廠商在研發與促進新一代電腦視覺產品上的創新成就。賽靈思已連續兩年抱走此大獎。 賽靈思的AI平台是業界首創同時能對硬體與軟體進行最佳化的解決方案,其全方位的軟體環境讓使用者能在像Caffe、TensorFlow及MXNet等標準框架中直接編譯與量化已事先訓練好的神經網路模型,進行最佳化後再建置到賽靈思SoC與FPGA晶片上。 該平台讓各種機器學習加速應用能被部署在雲端與邊緣,支援包括即時視訊轉碼與內容、自動語音辨識以及即時串流視訊中的物體偵測等應用。這已是賽靈思連續兩年榮獲年度最佳視覺產品獎,同時也是AI平台在近三個月內獲得的第二個獎項;另一個是在嵌入式電子與工業電腦應用展(Embedded World)中獲得《嵌入式運算設計雜誌》(Embedded Computing Design)的最佳展示獎(Best In Show)。
0

專訪萊迪思亞太區事業發展協理陳英仁 安全/低功耗為AIoT發展關鍵

萊迪思亞太區事業發展協理陳英仁(圖)表示,隨著AI不斷往各種嵌入式裝置推進,應用開發商將在安全跟效能上面對更大的挑戰。安全可靠的硬體設計,是推動AIoT普及的先決條件;更好的推論效能,則可讓應用開發商推出使用者體驗更好的終端應用產品。因此,萊迪思近日宣布推出可於眾多應用中保障系統韌體安全的MachXO3D FPGA,以及推論效能比前一代提升10倍的sensAI解決方案。 萊迪思亞太區事業發展協理陳英仁指出,安全與推論效能,將是AIoT應用能否更加普及的兩大關鍵。 元件的韌體已逐漸成為網路攻擊最為常見的目標。在2018年,超過30億各類系統的晶片由於韌體安全性漏洞問題,面臨資料竊取等威脅。不安全的韌體還會因為分散式阻斷服務攻擊(DDoS)、設備篡改或破壞等隱憂。若不及時處理這些風險,可能會對企業的聲譽以及財務狀況產生不良影響。 sensAI的低功耗AI推理功能則可針對OEM的應用要求進行最佳化,幫助他們與現有設計無縫接軌。由於只需要發送相關資訊即可做進一步處理,使用本地智慧處理能夠降低雲端分析帶來的成本。目前sensAI最主要的終端應用產品為智慧門鈴和安全攝影機等即時線上的IoT設備。藉由在本地端進行AI推論,這些設備的回應時間更快,且因為資料沒有傳輸到雲端,因此更難被竊取。  新版的sensAI解決方案與上一版相比,效能提升10倍,並支援更多新的神經網路和機器學習框架,例如Keras。此外,新版sensAI還提供全新客製化的參考設計,以加快物件計算和人員檢測等常見應用的開發速度。
0

工業+AI發展潛力大 訓練資料集建置仍為瓶頸

然而,對製造業應用而言,目前以雲端資料中心為基礎的人工智慧,通常是不符合需求的。在生產現場,絕大多數的控制命令跟判斷,都有很強的即時性,如果要把資料上傳到雲端,在雲端進行推論,再從雲端向現場機台下達控制命令,在時效上往往拖延太久。因此,直接在網路邊緣節點進行推論,將是面向工業應用的人工智慧所實行的主流架構,也就是俗稱的邊緣運算或AIoT(AI+IoT)。 這也使得有意進軍工業市場的人工智慧晶片業者,諸如NVIDIA、英特爾(Intel)與賽靈思(Xilinx)等,紛紛推出低功耗、低成本,適合部署於生產現場的晶片解決方案,如NVIDIA的Jetson TX系列、英特爾的Movidius系列、Cyclone/Stratix FPGA,以及賽靈思的Zynq 7000與部分Zynq UltraScale+系列晶片,都可讓部署在現場的嵌入式設備直接進行推論。這三家領導晶片所提供晶片方案,也正好代表了AI運算晶片的三大流派--GPU、ASIC與FPGA,在應用開發上各自有其優勢與限制。 GPU應用開發速度最快 開發工具/IP限制卻不少 對人工智慧應用的開發者來說,GPU是用來快速創建原型跟驗證設計概念的不二選擇。因為開發者只需要撰寫程式碼、甚至直接套用開發工具裡面的現成模型,稍微調整一下參數,就可以讓GPU開始進行訓練跟推理。因此,在應用開發的早期階段,GPU是目前最理想的選擇。 然而,GPU的成本高,功耗也偏高,是許多工業設備製造商在AI軟體發展完成,設備準備量產時,繼續沿用GPU做為系統核心的主要疑慮所在。GPU的散熱對於在工業環境下運作的嵌入式設備,是一個很大的問題。工業環境的溫度變化大,且現場往往沒有空調設備。如果環境的背景溫度本身就偏高,在這個情況下,採用被動式散熱的效果將大打折扣。 採用主動式散熱,例如散熱風扇,則意味著設備的機構設計可能需要保留開口,這會對設備的防水防塵能力造成負面影響。此外,某些工業環境中還有大量粉塵存在,如果設備內有風扇,不僅容易故障,還有引發粉塵爆炸的風險。 也因為上述種種環境條件的限制,GPU若想應用在工業設備上,低功耗是最重要的規格。散熱功耗(Thermal Power Dissapation, TPD)低於10瓦是設備得以採用被動式散熱的基本門檻,但如果能做到更低,工業設備採用GPU的疑慮也會跟著減少。這也是NVIDIA的第一代Jetson TX將功耗定在10瓦,並將新推出的Jetson TX2(圖1)功耗進一步壓低到7.5瓦的主要原因。 圖1 GPU的散熱問題是嵌入式應用開發商在選用GPU時最主要的疑慮之一。 除了功耗跟散熱問題外,GPU廠商的開發工具、參考設計跟協力廠商軟體資源雖然已經相當完整,但如果設備製造商想在這個基礎上進行客製化開發,還有智財(IP)方面的問題必須克服。有業界人士指出,跟NVIDIA合作,會受到很多限制。該公司提供的模型跟演算法資源相當豐富,也有為數眾多的協力廠商夥伴,但這些資源的智財權均控制在NVIDIA及其合作夥伴手上,如果要在產品上使用這些演算法,除了有可能需要額外支付權利金,NVIDIA對晶片的用途管控也相當嚴格。 另外,工業設備所使用的演算法跟模型,如果需要客製化調整,也可能需要跟演算法的開發者或GPU供應商進一步洽談,設備供應商不能自行隨意修改,這也是另一個潛在的成本來源,可能需要額外支付更高的權利金,或是耗費更多時間。 不過,倘若功耗跟智財都不成問題,對工業設備開發商來說,直接在設備上使用GPU,是最快將產品推向市場的途徑,因為產品從開發到最終量產使用的是同一個平台、同一套源碼,相容性基本上可以保證,不用擔心原本在GPU上開發的軟體,換到FPGA或ASIC之後會出現相容性問題。 ASIC算力/功耗比最優 演算法綁定不利發展多樣化應用 自從人工智慧浪潮興起後,許多IC設計公司都推出神經網路處理器(NPU)或ASIC加速器,想分食人工智慧應用的市場大餅。這些專為某些特定演算法或模型提供加速的晶片,在執行對應演算法的時候,有非常高的能源效率,功耗5瓦、甚至2瓦以下的解決方案都已經出現在市面上,為人工智慧應用的普及做出重要貢獻。 不過,也因為這類NPU或ASIC加速器只專門針對特定演算法或模型做優化,因此其泛用性很低。如果工業設備製造商對演算法或模型的更動幅度較大,甚至想套用自己發展出來的演算法,在這類平台上不是執行效果不佳,就是根本無法執行。 舉例來說,目前這類泛ASIC解決方案,最主要的應用市場是安全監控領域(圖2),例如人流偵測、人臉識別,或是對敏感區域劃設虛擬圍籬等。但對工業應用來說,這些方案除了適用于廠區的安全監控系統之外,像是生產線上的產品檢測、引導機器手臂作業等典型的機器視覺應用,很難採用這類ASIC方案來實現。至於微電子、半導體等級的自動光學檢測,這些ASIC方案就更難派上用場了。 圖2 安全監控的市場規模龐大,吸引眾多ASIC廠商為其開發AI演算法加速器方案。 對IC設計業者而言,針對少量多樣的工業市場開發ASIC產品,成本效益是最大的難題。因此,晶片業者的發展策略必然是利用安防產業所創造的經濟規模,向外拓展出部分工業或產業用嵌入式設備的應用市場。 近期英特爾跟IC設計新創公司耐能(Kneron),都分別與工業電腦業者結盟,試圖將NPU與加速器推進智慧零售應用,因為智慧零售的需求跟安防基本上相通,不需要太大幅度的設計修改。但有工業電腦業者認為,在未來三到五年內,NPU或ASIC加速器方案在產業領域的應用,大概也只會到這裡為止,要進一步跨入變異性更高的工業應用,機會應該不大。 FPGA限制最少 考驗設備商IC設計功力 過去幾年,有鑒於人工智慧需求興起,FPGA業者在自家開發工具跟協力廠商生態系夥伴的建構上投入不少心力,成果也陸續展現。在資料中心端,利用FPGA來加速神經網路或深度學習演算法,已經是很多網路巨擘所實行的作法,因此,FPGA廠商自然也將下一步發展重心放到邊緣運算上。 對工業應用來說,FPGA是個很理想的選擇。由於工業應用向來是個少量多樣的市場,很難期待晶片供應商針對工業設備業者的需求,推出對應的晶片解決方案。也因為這個緣故,某些研發實力較強的工業設備業者,一直都是靠FPGA來實現自己所需要的晶片功能。最典型的例子就是高階的運動控制設備,或是某些需要大量I/O的控制器。 而在人工智慧從雲端走向邊緣的過程中,工業設備製造商自然不會忽視用FPGA來實現人工智慧這個選項。且在FPGA業者陸續推出機器學習開發環境,協力廠商業者的軟體智財也逐漸到位後,利用FPGA在嵌入式裝置上執行人工智慧應用,困難度已經相對降低。不過,就和利用GPU平台上的協力廠商資源一樣,設備開發商如果要使用協力廠商開發的演算法,通常會有額外的授權費用產生。 FPGA最大的優勢在於硬體功能的配置非常彈性,如果工業設備開發商已經有自己的人工智慧演算法,開發團隊可以利用FPGA實現對應的硬體加速器,達到最高程度的系統設計優化。但相對來說,當軟體設計有所更動時,硬體可能也需要做對應的調整,而這個時間是相對耗時的。 事實上,要把FPGA的潛力發揮到淋漓盡致,開發團隊必須相當熟悉積體電路的設計作業,諸如電路合成、時序收斂、繞線佈局等。雖然FPGA供應商的開發工具多半已經可以將相關作業自動化,但要進一步將設計優化,設計人員還是需要具備相關知識,而且為了因應軟體設計反覆運算,硬體也要跟著頻繁反覆運算,這是很花時間的。 因此,比較理想的開發流程還是先從GPU開始,等軟體設計反覆運算到相對穩定的階段,再針對已經穩定的軟體做對應的硬體加速設計。而非直接從一開始就用FPGA平台做軟硬體同步開發。 訓練資料集建置不易 AI走進工業應用還需醞釀 雖然各晶片大廠對於人工智慧走向邊緣的發展趨勢都有很高的期待,並已推出對應的邊緣運算解決方案,但對工業應用來說,最麻煩的問題不是缺乏硬體或演算法,而是缺乏訓練用的資料集。 不像一般針對消費性或安防領域的人工智慧應用開發商,可以用低廉的人力成本找來大量資料標籤員,快速完成訓練資料集的建置。工業用的人工智慧應用處理的是各種專業領域的資料,一般人無法判讀這些資料。 以藉由機器視覺來檢視金屬加工件這項應用為例,工業相機可以輕而易舉地取得成千上萬張金屬加工件的影像,但這些影像對一般人來說看起來都差不多,只有業內專家能夠看出其中的些微差異,進而區別出良品跟不良品。 高品質的訓練資料集才能確保人工智慧判斷的準確性,但工業領域的高品質資料集不容易建置,是目前工業設備業者、乃至有心導入人工智慧的製造業者所共同面臨的問題。而且,由於這些資料往往涉及營業秘密,因此只能用內部有限的專家人力來建置資料集,無法外包給外部專家,這使得資料集的建置工作需要耗費更長的時間。 綜合多家國際工業設備巨擘與大型製造業者的觀點,即便目前人工智慧軟硬體方案已經比過去成熟許多,但相關廠家現階段大多還停留在研發前期或中期階段,僅有少數動作比較快的業者,已經開始在實驗產線上進行測試。因此,工業領域普遍導入人工智慧,可能還需要2~3年時間醞釀。
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -