- Advertisement -
首頁 標籤 TPU

TPU

- Advertisment -

Google開源框架加速AI訓練 最高節省80%成本

近日Google研究人員發表一篇說明SEED RL框架的文章,該架構可將人工智慧(AI)模型的訓練擴及數千個機器。並且促進每個機器達到每秒訓練數百萬個框架的速度,同時減少80%的成本,可望為過去無法與大型AI實驗室競爭的新創公司帶來平等的發展機會。 圖 近日Google研究人員發表一篇說明SEED RL框架的文章。來源:Google AI 在雲端進行複雜的機器學習非常昂貴。華盛頓大學曾經為了訓練用來製作/辨別假新聞的AI模型Grover,在兩週內花費了25,000美元。人工智慧研究組織OpenAI每小時支付256美元來訓練語言模型GPT-2,而Google支出大約6912美元訓練雙向轉換器模型BERT,用以重新定義11種自然語言處理任務的最新狀況。 SEED RL建構在Google的TensorFlow 2.0框架之中,透過集中模型使用圖形卡與張量處理器(tensor processing units, TPU)。為了避免遇到數據傳輸瓶頸,其使用分散式推論(distributed inference)訓練模型的學習元件,集中執行AI推論。目標模型的變量和狀態資訊保留在原本的位置,而每個步驟的觀察結果則會回傳給學習者,並且基於開源的通用RPC框架網路庫,維持在延遲最低的狀況。 為了評估SEED RL,研究團隊在常見的Arcade環境,以及DeepMind實驗室/Google Research Football三種環境中進行基準測試。團隊表示,他們解決了在Google Research Football中未解決的任務,並透過64個雲端TPU核心,達到每秒240萬幀的處理速度,此成果是目前最先進的分散式代理人機制的80倍。
0

Google Coral產品搭載瑞薩高效電源管理IC

先進半導體解決方案供應商瑞薩電子(Renesas)日前宣布其ISL91301B電源管理IC(PMIC)應用於最新的Google Coral產品當中,包括Mini PCIe加速器、M.2加速器A+E密鑰(M.2 Accelerator A+E Key)、M.2加速器B+M密鑰(M.2 Accelerator B+M Key)、以及系統模組(System-on-Module, SoM)。Google Coral可和任何規模的程序(Process)無縫整合,進而協助設計人員為多個行業創建各種當地的人工智慧(AI)解決方案。 瑞薩電子行動基礎設施與物聯網能源事業部副總裁Andrew Cowell表示,很高興能和Google合作,一起開發創新的下一代產品。該公司的多相位PMIC採用瑞薩電子的R5調變技術,可實現極為快速的暫態響應,因此Google的設計人員能夠機動性地調整功率來改善整體的系統效能。 Google Coral技術支援低功耗設備的高等神經網路(Advanced Neural Network)處理程序,其核心是Google Edge張量處理單元(Tensor Processing Unit, TPU)協同處理器,能執行每秒4萬億次的操作(Trillion Operations Per Second, TOPS),而每TOPS所使用的功率僅為0.5瓦(每瓦2TOPS)。例如能以節能的方式,執行諸如以400 FPS速度運作MobileNet...
0

AI商機/挑戰並存 半導體材料突破將成重點

人工智慧(AI)大行其道,但若要執行相關演算法或模型,需要大量運算能力,因此對半導體產業而言,AI固然蘊含龐大商機,但同時也帶來許多挑戰。在摩爾定律(Moore's Law)逐漸失效,晶片業者不再只能倚靠電路微縮來實現效能更高、成本更低的晶片之際,AI運算需求所帶來的挑戰更形艱鉅。美商應用材料(應材)認為,為了回應這些AI帶來的挑戰,在產業生態面,半導體產業的風貌將從上下游關係分明的直線鏈條轉變成互相交錯的產業網路;在技術面,則必須在運算架構、設計結構、材料、微縮方法與先進封裝這五大領域提出新的對策,而材料工程將在這中間扮演最核心的角色。 美商應用材料副總裁暨台灣區總裁余定陸認為,對整個半導體產業來說,AI是一個完美風暴,但同時也是完美的商機。我們正面臨有史以來最大的AI大戰,不論是傳統科技領導大廠、新創公司或軟體公司,都投入大量的資源、押寶不同的技術領域、聚焦應用的客製化及最佳化,專注於硬體的設計以及投資發展。在電腦運算處理器部分,人工智慧需要大量、快速的記憶體存取及平行運算,才能提升巨量資料處理能力,這時繪圖處理器(GPU)及張量處理器(TPU)會比傳統運算架構更適合處理人工智慧的應用。 為了使人工智慧潛力完全開發,其效能/功耗比(Performance/Watt)需比目前方案提高1,000倍 ,已成為現階段技術層面亟需突破的關鍵。 另一方面,為了應對大量資料跟高速運算需求,儲存資料用的記憶體、用來傳輸資料的高速介面技術等,也有許多可以發揮跟探索的空間。過去幾年,NAND Flash已經率先從2D走向3D,接下來還有許多新興記憶體蓄勢待發。先進封裝技術的推陳出新,讓異質整合成為可能,不僅讓晶片業者可以在單一封裝內整合更多功能,同時也讓資料傳輸的速度大為提升。 而在整個半導體產業面臨如此重大變化之際,市場對半導體產品的需求其實沒有太大改變。對半導體使用者、客戶來說,最注重的還是晶片的效能(Performance)、功耗(Power)、面積成本(Area Cost, AC),也就是應材常說的PPAC這三大指標。為了滿足客戶對產品的需求,應材認為,材料科學的突破是最關鍵的。 隨著晶片的結構越來越複雜,半導體製程發展的挑戰變得更為艱鉅。但如果在材料科學方面能有新的突破,將可協助半導體製造商解決不少問題。例如在晶片內數量越來越多的矽穿孔(TSV),必須精準地打在正確的位置上,否則就會形成短路。但以現在的製程方法,要確保TSV的位置正確,是相當有挑戰性的課題。為此,應材已發展出可以自動對位的新材料跟對應製程方法,可協助半導體製造業者解決這項難題。 最後,為了應對未來的挑戰,半導體產業的運作模式也必須跟著改變。當今的半導體產業上下游都是以直線型的方式來運作,互連性十分薄弱,但未來必須以神經網路形態(Neuromorphic)的思維,進行平行發展與學習,運用互連加速創新。每家廠商不只要面對客戶,以後還要跟客戶的客戶、客戶的夥伴攜手合作,才能發展出符合客戶需求的產品跟解決方案。
0

AI驅動資料中心/邊緣運算需求 晶片低功耗成大勢所趨

隨著人工智慧(AI)、物聯網等技術的發展,使得資料中心的需求也逐漸擴大;其中,依然以超大規模的雲端服務供應商為市場主導。另外,邊緣運算的需求也持續延燒中。以上二趨勢都將帶動低功耗晶片需求,此設計方向也是所有應用場域的大勢所趨。 其中,儘管私有資料中心依然是一個相當重要的市場,但是最大的零組件需求依然是來自全球超大規模雲端的供應商。這樣的市場環境將對於未來的產品設計產生重大的影響,因為未來的晶片設計將會以這些大規模的採購客戶的需求為主要的方向。市場調研機構Ovum分析師 Roy Illsley分析,像這樣的市場方向在短期之內將維持不變,但為了確保互操作性(Interoperability),本地端與雲端之間的連線將成為關鍵,這之間的產品組合也將反應出目前的市場變化。 值得一提的是,Illsley提到,由於中美貿易戰以及英國脫歐等國際政治情勢變化,目前的資料中心相關供應鏈正受到極大的壓力。中美貿易戰以及英國脫歐不僅是對於股票市場或是製造廠設立地點的改變,也將使得現有的供應鏈不如以往那樣可靠。 由於人工智慧的發展也使得邊緣運算的需求逐漸上升,此趨勢也帶動了低功耗晶片的需求成長。Illsley認為,邊緣運算熱潮將持續延燒,並且首先將落實在基地台以及感測器應用上。當然,晶片在各種不同的設備上應用方式皆有所不同,但是低功耗都是非常重要的考量要素。目前市場已能看見許多針對人工智慧與機器學習需求而設計的新型晶片,如Google所推出的TPU,就是專為高效能運算(HPC)需求設計晶片的典型案例。其中,在推廣時最大的挑戰在於建立晶片運作的相關環境,使得晶片能夠發揮最大效能。
0

AI掀起高效運算熱潮 DSA/DSL後勢看好

有資訊科學界諾貝爾獎之稱的圖靈獎(Turing Award),在2018年3月宣布2017年度的得獎者,由David Patterson跟John Hennessey兩位研究計算機架構的大師級人物獲獎(圖1)。兩位學者合著的「計算機組織與設計--硬體/軟體介面」,出版至今已有25年,仍是資訊工程學界必讀的權威著作之一。 圖1 2017年度圖靈獎得主John Hennessey(右)與David Patterson(左) 兩位學者對計算機架構跟微處理器的演進產生非常深遠的影響,如精簡指令集(RISC)的概念就是由兩位學者所提出。因此,Patterson跟Hennessey早已注定名留青史,獲得圖靈獎肯定則可說是錦上添花,甚至有些令人意外。 傳統上,圖靈獎是一個非常偏向軟體的獎項,例如人工智慧(AI)研究、程式設計理論跟密碼學,就是圖靈獎的常勝軍,很少由跟硬體有直接關係的研究者獲得。因此,兩位學者在這個時間點獲得圖靈獎肯定,加上眾多新興運算架構如雨後春筍般出現,也象徵著硬體創新的價值,再度獲得各界肯定。 通用架構面臨效能/安全雙重考驗  在過去半個多世紀,製程微縮一直是半導體業者得以降低晶片製造成本、功耗、提升晶片效能最重要的原因,但如今製程微縮已經無法再像過去那樣,為晶片供應商帶來上述好處。先進製程的開發費用極為昂貴,而且對功耗跟效能的提升效果已不若過去明顯。即便電晶體尺寸在技術上還有進一步微縮的空間,對晶片商來說,到底值不值得,是個需要精打細算的問題。 Patterson與Hennessey在得到2017年度圖靈獎肯定之後,於2018年6月聯合發表過一篇公開演說,認為運算架構的發展將進入另一個黃金年代,領域專用架構與領域專殊語言將成為新顯學。 兩位學者表示,摩爾定律發展面臨瓶頸,已經是不爭的事實。不管是記憶體晶片的密度,或處理器晶片上整合的電晶體數量,都已經無法追上摩爾定律原本預期的目標。對處理器晶片製造商來說,靠電路微縮來換取晶片效能提升,已經是一條走不通的路,未來必然要從其他創新,特別是架構上的突破來著手。 然而,回顧處理器架構的發展史,通用架構跟通用語言在過去30年來,其實沒有突破性進展。過去30年間,沒有任何新的通用型複雜指令集(CISC)的指令集架構(ISA)被提出;通用型超長指令集(VLIW)的ISA則有過一次失敗的嘗試,即英特爾(Intel)跟惠普(HP)合推的Itanium 64。歸結通用型VLIW失敗的原因,主要是因為過於複雜,跟循序超純量(In-order Superscalar)不相上下,因此在執行複雜應用軟體時,沒辦法帶來太多實際效益。 不過,VLIW在嵌入式數位訊號處理器(DSP)是成功的,因為這個應用市場對VLIW的需求較為單純,分支問題相對簡單、快取很小或根本沒有快取、程式規模也小。某種程度上,嵌入式DSP其實是一個帶有領域專用色彩的處理器架構。它所要處理的問題範疇相對明確,不像通用型處理器跟通用型語言,要應付各式各樣的需求。 相較之下,精簡指令集(RISC)無疑是目前最成功的通用型運算架構,目前市面上幾乎所有通用型處理器,包含x86處理器在內(更精確來說,是x86指令集相容),本質上都是RISC。然而,RISC能為處理器帶來的效能成長空間,也已經接近極限,需要更多技術跟架構上的突破,才能進一步提高處理器的效能(圖2)。 圖2 過去40年處理器效能進展概況 除了現有運算架構的效能已經接近極限之外,現有運算架構還面臨另一個很大的難題--安全性。2018年初,Google Project Zero對外公布推測執行(Speculative Execution)漏洞,並有其他研究人員基於此漏洞,發展出熔毀(Meltdown)與幽靈(Spectre)兩大類攻擊手法。由於此漏洞普遍存在於現有的處理器架構上,因此英特爾(Intel)、超微(AMD)與安謀(Arm)均無一倖免,且很難用軟體予以解決。 Patterson與Hennessey指出,現有的CPU架構其實在介面上非常老舊,因此存在許多攻擊向量,英特爾CPU的管理引擎(Management Engine, ME)處理器就是其中之一。可以預期的是,未來還會有更多基於CPU架構漏洞而發展出來的攻擊手法,如果不從架構翻新著手,類似問題將層出不窮。 領域專用型架構/語言將是未來方向 通用型處理器架構跟語言未來的效能發展,顯然已經面臨困境。未來晶片業者如何推出效能更強的新產品,來滿足市場需求?兩位學者認為,領域專用型的處理器架構跟程式語言,將成為未來發展機會最大的方向。所謂領域專用型的架構跟語言,分別是指針對特定領域的需求屬性客製化的運算架構,以及配合該架構所使用的程式語言。 通用型架構所面臨的問題,前文已經有所論述。通用型程式語言的發展,主要面臨的問題在於過度強調程式開發者的開發效率,忽視了程式執行的效率。從當代腳本式語言的發展就可以看出,程式語言的發展是朝鼓勵設計重用(Re-use)、語法更自由的方向發展。這個方向有助於提高程式開發的效率,但對程式執行的效率卻沒有太大幫助。 因此,如果要追求更好的效能表現,處理器開發商跟軟體社群必須改變思維,針對其鎖定的應用發展出最佳化的架構。目前領域專用型架構跟領域專用型語言進展最快的應用領域,當屬機器學習、電腦繪圖跟可編程網路交換器、介面。這些應用各自孕育出神經網路處理器(NPU)、神經網路加速器、繪圖處理器(GPU)等對應的硬體架構,同時也發展出一套自己專用的程式框架或API。 更具體地說,Google的TPU與TensorFlow、GPU與OpenGL的搭配組合,就是領域專用架構跟領域專用語言的實際案例。TPU跟GPU各自有其適合處理的運算任務,在某幾種應用領域內,搭配專用的軟體語言,可提供極佳的運算效能;但如果離開其所擅長的應用領域,其整體效能表現就會大打折扣。 而這也意味著DSA跟DSL的發展必須相互依存,如果DSL的發展獨立於DSA之外,雖然可以有比較好的靈活度,但通常是以犧牲執行效能作為代價。TensorFlow就是獨立於TPU之外發展起來的DSL,因此在執行效率上還有可改善的空間。這也促使Google決定自行發展XLA編譯器,以提升TensorFlow執行效率。 大量新創公司擁抱領域專用概念 事實上,兩位學者所提出的方向,是科技業內許多廠商在過去幾年一直追求的目標,特別是半導體領域的新面孔,其領域專用的產品布局方向非常明顯,如自行開發TPU的Google,以及正在大力挖角各方好手,也想開發自有AI晶片的Facebook,以及中國的百度、阿里巴巴,都是朝領域專用處理器的方向進行布局。 除了網路大廠,半導體新創公司普遍也是以領域專用作為產品布局的主要策略,特別是中國的晶片設計公司,在人工智慧、機器學習的浪潮下,普遍以神經網路加速器作為創業題目或未來發展重點。 明導國際(Mentor)執行長Walden Rhines(圖3)就指出,半導體購併浪潮冷卻後,現在半導體領域的新創公司又開始大為活躍,並獲得創投基金大量挹注。根據明導彙整多家研究機構與自身研究團隊的數據指出,AI跟ML是2012~2018年期間,創投基金對半導體新創公司挹注金額最多的應用領域,總金額達到11.63億美元(圖4)。 圖3 明導國際執行長Walden Rhines認為,DSA將成為未來處理器發展不可忽視的主流。 圖4 2012~2018年全球創投基金對半導體新創公司投資金額概況 如果只看2018年,僅14家AI/ML新創公司從創投取得的資金,就高達7.86億美元。AI/ML成為爆紅創業題材的情況,由此可見一斑。這些AI/ML新創公司都是採用領域專用架構來開發晶片的企業,具體產品則是神經網路加速器或神經網路處理器。 軟硬體共同設計考驗老將新秀 大量新面孔帶著新的題目加入半導體產業行列,對產業發展是好事。但從現實面來看,創業成功的機率本來就不高,即便是選擇市場機會大的題目,輔以合乎產業發展潮流的產品策略來創業,失敗的風險也不低。以DSA跟DSL為例,要開發這種產品,設計團隊必須非常了解應用需求,DSL跟相關編譯器技術要有一定的掌握度。此外,硬體架構的設計原則跟實作等硬體開發的基本功,也是成功不可或缺的關鍵。 以此進一步分析,大型網路公司本身就是使用者,同時又是軟體起家,因此前兩項要素的掌握度較高,至於硬體開發相關環節,則較為欠缺,必須靠挖角或購併來建立硬體團隊。新創公司則通常是以硬體架構或編譯器作為核心能力,但實作跟應用需求的掌握度較低,必須盡快補足。 至於現有的晶片設計公司,在硬體設計方面具有優勢,但對於新興的DSL通常掌握度較低。如何招募到相關人才,強化對新興語言的支援性,或許是最大的考驗。 直言之,在DSA/DSL大行其道的未來,軟體跟硬體必須同步發展,相輔相成。純軟體或純硬體公司,恐怕都得因應此一趨勢的轉變,及早規劃轉型對策。
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -