- Advertisement -
首頁 標籤 INT8

INT8

- Advertisment -

製程升級/專用化/改架構 AI訓練/推論晶片算力攀升

人工智慧(AI)在經過幾年熱潮後逐步落地,過去強調AI準確性的做法,轉變為追求效率,而「算力」似乎成為AI晶片效能最容易理解的指標,TOPS(Tera Operations Per Second)或TOPS/w慢慢成為產業共識,儘管構成算力的條件很多,AI執行效能也非僅從算力就能完全判定。進入所謂AI 3.0的時代,資料運算複雜性持續提升,但希望在有限的資源下達成最佳化管理的目標,算力就是系統效能最初步/簡易的判別指標。 另外,AI針對不同場景與任務,可以分為雲端(Cloud)與邊緣(Edge)、訓練(Training)與推論(Inference),為了提升效能表現,這四類工作走向專用與分流,處理雲端訓練的晶片依然強調運算能力,希望能以資料處理量為重點,然而在另一端的邊緣推論則可犧牲部分精度,以求在最低的功耗下獲得可接受的結果,在強調運算與講求耗電的兩種需求就像是光譜的兩端,加上雲端推論與邊緣訓練,為AI晶片畫出四個明確的專用分流路線。 AI晶片分流專用成趨勢 1TOPS代表處理器每秒鐘可進行一萬億次(1012)運算。每秒浮點運算次數(Floating-point Operations Per Second, FLOPS)是每秒所執行的浮點運算次數,代表AI網路資料處理能力。整數運算則是使用在推論上,8位元整數(INT8)逐漸成為邊緣推論的主流,工研院產科國際所產業分析師范哲豪(圖1)認為,準確度更高的INT16與INT32,只出現在某些特殊應用,部分單純的應用更僅要求四位元或二位元精度。 圖1  工研院產科國際所產業分析師范哲豪 根據2018年中國清華大學的「2018人工智慧晶片技術白皮書」,將AI晶片分為三類,第一類是經過軟硬體優化可高效支援AI應用的通用晶片,如GPU、FPGA;第二類是專門為特定的AI產品或應用而設計的ASIC晶片,主要側重加速機器學習,尤其是神經網路、深度學習,目前智慧物聯網AIoT的終端應用出現越來越多這類晶片;第三類受生物腦啟發設計的神經形態運算晶片,這類晶片不採用經典的馮紐曼架構(Von Neumann Architecture),模擬人類神經元的運算模式,可以大幅提升算力。 大致說來,第一類通用型AI晶片是以雲端訓練為主,代表性廠商就是NVIDIA、Intel、Xilinx、Qualcomm這類大廠。第二類專用型的晶片以邊緣推論為主,廠商則是百花齊放,老將與新星並陳,許多原來發展ASIC的廠商與乘著AI浪潮興起的「獨角獸」都發展這類晶片。范哲豪提到,第三類神經網路晶片則是未來趨勢,像IBM或美國國防高等研究計畫署(DARPA),還有一些學校、知名技術實驗室已積極研發相關技術。 科技產業投入AI晶片前仆後繼 AI晶片是2019年半導體的投資熱點,工研院資通所嵌入式系統與晶片技術組長盧俊銘(圖2)指出,雲端以訓練為主,邊緣推理應用廣泛,因此出現雲端有訓練,邊緣有推理的說法,許多新創業者嶄露頭角;而處理器龍頭Intel繼2016年4.08億美元併購Nervana之後,2019年底再度以20億美元併購以色列AI晶片廠商Habana,同時擁有CPU、GPU、FPGA、AI專用推論與訓練晶片,具備最完整的AI產品線,展現進軍此領域強大的決心。 圖2  工研院資通所嵌入式系統與晶片技術組長盧俊銘 范哲豪強調,AI演算法、運算力、資料是AI三大要素,所以Google、Amazon、Microsoft、Facebook、阿里巴巴、百度等網路服務大廠也積極投入開發資料中心伺服器專屬的AI晶片或邊緣處理器。另外,恩智浦半導體大中華區業務行銷資深經理黃健洲(圖3)說,AI雲端晶片特點在於運算和圖形處理能力,並提供安全的客戶解決方案、應用和設備管理環境;邊緣端的優點則是保障隱私、改善用戶體驗、高可靠性的應用需求。 圖3  恩智浦半導體大中華區業務行銷資深經理黃健洲 而訓練則是透過量化等為更精確的訓練模型生成提供動力,訓練模型經過非常縝密的計算而且時間密集。黃健洲認為,需要更多資料遷移和AI引擎被創造出來為RTOS或低功耗電池平台提供輕量與靈活的訓練模型,以導入邊緣運算。推論(如Arm推出的Arm NN、Arm CMSIS-NN、OpenCV等)的趨勢則以提高卷積、匯集、動作等功能。 AI新架構成長期發展重點 為了提高AI晶片效能,算力成為關鍵指標之一,范哲豪解釋,傳統的CPU採用序列式運算,AI處理器則著重平行式運算,AI的運算與資料關係密切,資料介面頻寬成為運算的瓶頸之一,於是近來有更多解決AI運算時資料存取瓶頸的技術被提出,包括升級記憶體頻寬、讓處理器與記憶體靠的更近的近記憶體運算(Near Memory Computing)、運算單元與記憶體整合的記憶體內運算(In Memory Computing)等。 多年來資訊運算與處理都是依循傳統的馮紐曼架構,運算與儲存單元分開,范哲豪進一步說明,無論是CPU、DSP或GPU都是單獨處理運算,需要資料再從記憶單元呼叫,而在AI發展的過程中,運算單元不斷提升處理能力,資料匯流排頻寬沒有隨之擴充或追不上運算提升的程度,AI運算需要在運算同時取用資料,為了使AI運算最佳化,重新發展晶片的架構或材料,讓運算與記憶體的取用更即時,成為技術研發的方向。 目前常見的作法是Near Memory Computing,像NVIDIA的NVLink高速GPU互連技術,可以提升GPU的互聯頻寬與記憶體的取用速度,提供50~200GB/s的頻寬。或者是減低記憶體與處理器連線距離的設計如晶圓堆疊(Wafer on Wafer,...
0
- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -