- Advertisement -
首頁 技術頻道 具高效/低功耗優勢 PIM技術重返深度學習熱潮

具高效/低功耗優勢 PIM技術重返深度學習熱潮

- Advertisement -

而所謂的記憶體內處理器(Processor In Memory, PIM)(圖1),或稱記憶體鄰近處理器(Processor Near Memory, PNM)、記憶體內運算(In-Memory Compute, IMC)等,則是在晶片電路設計時即以記憶體的矩陣記憶電路為基礎,再行加搭起運算電路,使記憶與運算電路幾乎融為一體。

圖1 左圖為現行處理單元與記憶體間有讀寫(Fetch提取、Store存入)的瓶頸,右圖為PIM作法可消除運算與儲存間的傳輸瓶頸。
資料來源:IBM

PIM作法過去曾在上世紀90年代倡議過但未能成為潮流,但隨著人工智慧(AI)、機器學習(ML)、深度學習(DL)的興起,產業界重新評估與發展PIM技術及晶片,原因主要在於現行主流技術在運算效能提升上漸遭遇多項瓶頸,難以因應日益增高的深度學習運算量。

首先是晶片設計團隊逐漸難從處理單元的邏輯設計上獲得更高效能,因此IBM POWER(Performance Optimization With Enhanced RISC)架構處理器於1999年首次運用持續推進的半導體製程縮密技術,於單一晶片實現雙核心,以增加核心數獲取顯著效能提升,2005年AMD於x86架構上實現雙核,自此處理器紛改以增加核數為主要效能提升手段。

多核作法之後亦遭遇瓶頸,即處理單元(核)間的資料交換不夠快速,溝通協調成為運作瓶頸,因此改進晶片內外的連接傳遞方式成為重點,此時經常出現晶片商強調結構織法(Fabric)一詞。

改善連接結構後仍有其他問題需解決,因漏電流因素晶片運作電壓難以再下降,即便晶片放入更多的核,也無法讓所有的核均全速運作,因供電散熱之限只允許部份的核全速運作,部份之外的核須以降速、輕負荷方式運作,或暫時關閉停止運作,此稱為暗矽(Dark Silicon)限制,當製程技術持續提升,晶片內的核數愈多,暗矽限制也會更嚴重(圖2)。

圖2 電路運用率撞牆,暗矽效應阻礙使多核處理器無法全速運作。
資料來源:Michael Bedford Taylor

另外記憶體與處理器間的傳輸通道也難以更快,記憶體電路區塊與處理單元區塊有別的結果,傳遞過程必然有一段電路距離,因電路上的寄生電容因素而難以更快速傳遞,形成馮紐曼瓶頸(Von Neumann Bottleneck),半導體製程縮密技術讓記憶體容量愈來愈大,但進出處理單元的資料通量卻沒有相應的提升。

深度學習運算量大增 PIM技術動向受矚目

而如前述,深度學習需要的運算量不斷提高,特別是在支援自駕車應用上,2017年NVIDIA提出自駕車運算平台DRIVE PX PEGASUS,宣稱合併兩張DRIVE PX PEGASUS可獲得320TOPS(8位元整數)的人工智慧推論運算力,目標在於支援ADAS標準最高的Level 5自駕層級,即各種路況與情境下均能全程自動化駕駛不需人為介入,然代價是500瓦功耗,對汽車電瓶亦是不小負荷。

由於傳統方式提升運算(特別是深度學習運算)效能日益困難,因此產業開始嘗試回望PIM技術。PIM技術因記憶電路與處理電路兩者緊鄰,傳輸距離短,可快速傳遞運算,而深度學習所需要的「網狀層次連接、節點加權運算」亦容易以PIM方式實現,記憶體內儲存的資訊即是節點的權重(Weight,或稱特徵權重),運算後的結果再向更深層的節點傳遞,進行相同的乘積累加運算(簡稱乘加運算Multiply Accumulate, MAC),最終得到深度學習的運算結果。

以PIM方式實現深度學習運算,理論上可比傳統作法更輕易達到效能提升,且是以省電方式提升,即TOPS/Watt表現佳(類同於每瓦效能Per Watt Performance的概念),若堅持傳統作法估計只能以更大的功耗代價帶來些許提升。

由於深度學習的需求增加,近年來已有數家機構與企業投入PIM技術發展,例如ISAAC、Tetris、NeuroCube、Mythic、Syntiant、IBM、PRIME、PipeLayer等。其中以2012年成立的Mythic與2017年成立的Syntiant有較接近於商業化的開發進度,同時有重量級業者資金與技術支持。另IBM(在此指IBM Research)的技術發展向來受人矚目,以下將針對此兩新創業者的技術主張及近況為主進行觀察,部份項目輔以IBM的作法進行比較。

PIM技術有助於新興/利基記憶體發展

首先為記憶體類型,PIM必須以一種記憶體電路為基礎發展其執行處理電路,以Mythic與Syntiant而言均是以嵌入式NOR Flash電路為主,IBM則以相變記憶體(Phase-Change Memory, PCM)、阻憶器(Resistive)為基礎(圖3)。

圖3 IBM運用相變記憶體儲存神經網路中的權重。
資料來源:IBM

PIM技術並未限定使用揮發性(俗稱RAM)或非揮發性記憶體(Non-Volatile Memory, NVM),也未限定記憶體類型,不過記憶體電路負責儲存神經網路的節點權重數值,人工智慧運算在推論過程中鮮少改變權重數值,因此權重數值於系統開機後一次載入到RAM記憶體後便不再更動。

維持記憶內容,可以用定期刷新的方式,然而,刷新週期也排擠執行單元的存取時間,減少存取頻繁度,或是維持頻繁存取但功耗散熱增加。因此,若為ROM記憶體則可省去刷新程序,對於需要訓練模型或是頻繁更新神經網路模型者,仍會以RAM為宜,反之為ROM,如NeuroCube即使用RAM。

目前Mythic使用的NOR Flash技術來自富士通(Fujitsu)的40nm製程,不過2018年富士通將廠房售予聯電(UMC),此技術合作在售廠前便已進行,估計會延續至聯電。Syntiant、IBM則未揭露製程相關資訊。

由於重新啟動的PIM技術著重在神經網路運算,因此業者也積極嘗試各種新型記憶體以支援執行運算設計,而不限定使用已大宗運用的記憶體,如考慮MRAM/STT MRAM、RRAM/ReRAM等,新興與利基型記憶體於PIM領域具有發展機會。

類比運算具更快執行效能

由於推論取向的神經網路運算不需要高精度,原有以訓練為主的運算需使用32位元浮點數、16位元浮點數,然推論時只要8位元整數、4位元整數,低精度整數的執行處理電路在實現上比浮點數容易許多,其乘加運算既能以傳統數位邏輯電路實現也能以類比電路實現,甚至後者有更快的執行效能與更佳的TOPS/Watt表現。

目前無論Mythic、Syntiant或IBM均傾向使用類比技術,使用類比技術不代表均使用相同的類比實現電路,例如Mythic的技術會用上類比數位轉換器(Analog-to-Digital Converter, ADC)與數位類比轉換器(Digital-to-Analog Converter, DAC),但IBM的技術不需要ADC、DAC。

Mythic以256階的電導類比數值來表示8位元整數,進而代表節點權重,而後以歐姆定律來實現乘法運算,輸入數值以電壓表示,權重以電導(電阻的倒數)表示,輸出結果以電流表示(I=V×G),Syntiant則是以電路中儲存的類比電荷數值來表示權重,精度為4位元。

Mythic的作法僅是其一,其他類比推論電路亦依據各自不同的記憶體結構有不同的實現手法,以不同的方式表達權重數值,也以不同的運算電路設計來實現乘法運算、加法運算,以及運算結果輸出等(圖4)。

圖4 Mythic運用ADC、DAC構成矩陣電路,權重儲存在交織處的電阻/電導中。
資料來源:Mythic

Mythic與Syntiant的PIM晶片均將應用目標放在推論上,IBM則同時放在訓練與推論上,IBM於2018年NeurIPS(全球最大的人工智慧、機器學習研討會)活動期間公布研究論文「Training Deep Neural Networks with 8-bit Floating Point Numbers」,該論文主張只需使用8位元浮點數也能進行訓練,並適用在多種模型與運用上,模型如ResNet50、AlexNet、以及BN50_DNN等,應用則適用於影像、語音、文字資料庫等。

權重數目為PIM類比推論評量基準

PIM類比推論技術的發展,現階段一項評量基準為權重數目,權重數目愈多,通常也意味著較大較快的類比運算力。依據Mythic於2018年8月透過MPR(Microprocessor Report)揭露的報告所言,Mythic預計於2019年第四季推出第一顆商業化晶片,預計可同時儲存運算5,000萬個權重;而2019年2月Syntiant官方發布的資訊,其類比PIM晶片可同時儲存運算50萬個權重。

Syntiant的權重數明顯少於Mythic,而兩業者的PIM晶片定位也截然不同。Syntiant由於初期晶片運算力較為有限,因此只訴求語音、音訊相關的推論應用。另外,由於PIM技術使得晶片相當省電,宣稱不到200微瓦(uW),甚至只有150uW。

因此訴求用於極低功耗要求的應用情境上,如手機、助聽器、藍牙耳機或蘋果AirPods類似產品、智慧手表、物聯網端點、智慧喇叭、遙控器,Syntiant規劃後續晶片具備更大量節點,以支援影像推論應用。

至於Mythic發展之初便鎖定影像應用,目前尚未公布晶片接腳數目、封裝方式、功耗等細節,但想定的系統組態中已有單顆Mythic晶片、4顆、8顆、16顆等多種組合,期望在單一系統內使用多顆晶片來達到更高推論效能,以較充沛電力運作的情境為設想,如視訊監控、產業機器人、資料中心等,與Syntiant的電池電力應用不同。由此可知雖然PIM技術能有較佳的TOPS/Watt表現,但並非所有晶片商均選擇低功耗需求市場,亦可能著眼於高效能需求領域。

另外,由於過去Intel中央處理器(CPU)一詞過紅,導致許多晶片商也傾向將自己的晶片產品冠上與PU(Processing Unit)、P(Processor)關連的字詞,以利行銷。如1999年NVIDIA推出GeForce繪圖晶片便稱為GPU(Graphics),2016年Movidius的Myriad 2人工智慧晶片則稱為VPU(Vision)。

同理,Mythic推出的PIM晶片稱為智慧處理單元(IPU),IBM則稱為阻憶器處理單元RPU(RPU),Syntiant則稱為神經決策處理器(NDP)。

類比/數位電路仍須合作搭配

PIM推論晶片內並非全然是類比電路,依然需要類比數位轉換,以及透過數位介面系統中的數位主控晶片協同運作,因此晶片內的主體是類比推論電路,但周遭的週邊電路區塊仍為數位,甚至需要就近的數位控制單元(MCU Core)、數位儲存輔助其運作。

Mythic此方面使用RISC-V核心,採行理由如常見的客製彈性、免授權成本,並運用該核心支援一專屬設計的SIMD指令集,運用此指令集加強支援其類比PIM推論運算,另內有5MB SRAM、PCIe 2.1介面。Syntiant方面則使用Cortex-M0核心、112KB SRAM、SPI介面,顯見兩業者的差異(圖5)。

圖5 Syntiant NDP100晶片功能方塊示意圖,灰色方塊均為數位電路,僅神經網路部份為類比電路。
資料來源:Syntiant

除了以權重數目為現階段效能衡量外,省電亦是PIM另一大訴求,Mythic目前約為4TOPS/Watt,Syntiant方面則宣稱目標在20TOPS/Watt。採行PIM路線提供推論運算方案者,自然要挑戰現行主流人工智慧加速晶片,如NVIDIA Volta V100 GPU估約0.4TOPS/Watt,Syntiant認為其技術可在相同推論效能需求下比GPU省50倍電能(圖6)。

圖6 Mythic揭露其測試,以224 x 224解析度跑ResNet-50模型,Mythic效能勝GPU且用電遠低於GPU。
資料來源:Mythic

PIM架構站穩市場仍須克服多種限制

有關PIM架構的再興、類比運算的再興,許多科技界領域的重量級業者早已洞見,並在先期挹注資金支持,如Mythic即獲得Micron、SoftBank、Lockheed Martin等十餘家業者的投資,Syntiant也獲得Amazon Alexa Fund、Intel Capital、微星科技(MSI)、M12(前身為微軟創投)、Motorola Solutions Venture Capital等的投資。

投資者也看上技術合作,如Mythic與Lockheed Martin合作,將在其無人機上配置Mythic的類比影像推論晶片IPU,而Amazon Alexa Fund投資Syntiant估計亦期望其音訊推論技術能與Alexa技術相輔相成。

有關音訊推論技術的合作Syntiant已與Infineon有初步成果,Syntiant NDP晶片與Infineon的微機電系統(MEMS)麥克風IM69D130 XSENSIV搭配,不需要聯網雲端也不需要數位訊號處理器(DSP)即可完成語音相關推論。

PIM架構的類比推論雖有效能佳、功耗低等優點,然現階段亦有其限制與缺點,例如在電路實現上其網路階層數、節點數不易大規模擴展,或類比電路可表達的精度有限(4位元或8位元)因而多用於推論,支援訓練運算仍屬少數。

此外類比電路也容易因電壓、溫度等物理因素影響其表達精度,對此必須時時校準以保精確,或必須運用配套軟體演算對物理偏差進行補償,反之數位電路較無此顧慮,但數位在推論效能與省電表現上不易超越類比。

歸結而言,PIM方案即便僅訴求於推論運算,亦會與GPU、FPGA、ASIC等實現手法於市場上競爭,PIM陣營若能在網路規模上突破,並維持高效能、低功耗,如此無論在端緣(Edge)或資料中心的推論需求市場上均能有斬獲,若無法突破估僅能在利基市場中運用。

相關文章

- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -