機器學習
ML提升機器視覺應用彈性 SI業務發展路更寬
機器視覺在製造業應用存在已久,但過去的機器視覺本質上是以規則為基礎的專家系統(Rule-based Expert System),不具備自主學習的能力,能處理的問題範疇也較為專一。這也使得機器視覺的系統整合商(SI)規模普遍不大,但在特定領域有非常深厚的技術累積。以機器學習(ML)為基礎的機器視覺系統,則可能改變這個產業風貌,讓SI更容易跨入不同領域。
研華網路暨通訊事業群資深協理林俊杰指出,機器視覺在製造業應用已經有相當長的一段歷史,且隨著檢測對象不同,分化出許多次領域,例如針對電子元件、電路板的自動化光學檢測(AOI)、針對產品組裝的視覺校準/對位,乃至成品/半成品的外觀瑕疵檢測等,都可以歸類於機器視覺的範疇。但現有機器視覺系統的核心,多半是以規則為基礎的軟體程式,當工業相機拍攝到過去從未見過的影像,取得的特徵值無法對應回既有的軟體系統時,就會很容易出現誤判或無法識別。
這使得機器視覺系統的設計規畫跟布署,變成一項非常仰賴專家的工作。唯有針對某一類應用有深入研究,並且累積了大量經驗的SI,才能寫出符合生產線需求機器視覺軟體。而且,某個特定領域的專家,要跨到其他機器視覺的領域,也不是那麼容易的事情。
基於機器學習(ML)的機器視覺,則是完全不同的典範。一套辨識模型或演算法,經過不同的資料集訓練,就可以辨識出不同型態的圖樣,而且隨著工業相機取得的影像資料越多,累積的訓練資料增加,系統辨識的準確度還有機會進一步改善。
另一方面,對機器視覺SI業者而言,基於ML的視覺系統還有更容易跨領域應用的優勢。例如一個經過訓練的免洗杯辨識演算法,只要稍加調整跟再訓練,就可以用來辨識不同種類的杯子,例如玻璃杯、馬克杯,因為這些杯子都有一些共通的特徵值。如果是傳統的機器視覺軟體,開發過程就得從頭來過。
不過,對大多數基於機器學習的系統來說,訓練資料的數量跟品質,還是許多開發者所面臨的最大難題,基於機器學習的機器視覺也不例外。現在許多網路大廠都已經提供雲端訓練工具,因此,開發者要訓練自己的模型,門檻已經比以往大為降低,但要取得足夠且高品質的訓練資料集,還是要投入很多資源。
近幾年中國掀起人工智慧熱潮,也促成一個新的行業--資料標籤公司誕生,但這些專門提供資料標籤建置的服務業者,通常沒有足夠的能力處理工業製程中所拍攝的影像。舉例來說,金屬加工件的邊緣出現毛邊,但程度要多嚴重才應該被判定不良品,就只有那個行業的老師傅能準確判斷,不在該行業的標籤建置人員很難做好這項工作。因此,即便是採用機器學習技術,SI想要跨到新的領域,還是有一定門檻要跨過。
此外,目前機器學習最理想的開發平台是GPU,因為GPU有最好的軟體適應性,設計迭代最方便,但如果是要布署到生產現場,GPU可能就不是那麼理想,因為GPU的功耗較高,有時還是需要搭配主動式散熱。但很多生產現場是不允許散熱風扇存在的,例如烤漆作業區,因為環境裡有粉塵,不只容易導致風扇故障,萬一有火花產生,還有可能引發爆炸。
相較之下,FPGA是比較適合布署在現場的運算硬體平台,但FPGA的設計迭代過程比GPU耗時,軟體修改後,硬體描述語言(HDL)也要跟著調整,才能實現最佳化。因此,機器視覺系統要改以機器學習為基礎,並大量普及到工業現場,還需要一些時間來醞釀。但整體來說,因為以機器學習為基礎的機器視覺,對各種應用情境的適應能力較佳,因此長期來看,SI或軟體開發者應該還是會逐漸轉向機器學習。
四大優勢助陣 NVMe讓AI更聰明
上述這些AI生命週期的步驟若運用NVMe,都可受益於其效能而呈指數型的成長。有鑒於此,本文將深入探討如何善用現代式的NVMe介面儲存方案,從而促進更快速的周轉效率,來實現下一階段的AI突破。
各行各業正在將機器學習技術導入其商業流程,旨在為客戶提供更好的產品,並為股東帶來更好的獲利。不過,若要有效地部署AI,就需要客製化的機器學習模式、大量運算及無法估量的數據。未來從最小的物聯網設備到最大的城市級數據,都驅使我們必須處理PB單位的資料量,而這將對在傳統上以MB單位量及毫秒運算時代所設計的儲存技術帶來很大的挑戰。
機器學習需要消化龐大的數據量,因此需要NVMe,一種專為傳輸速度所設計的全新儲存介面技術。與SATA及SAS不同,NVMe捨棄了以傳統硬碟設計的協議與構造,取而代之的是通用處理器連接技術中速度最快的PCI Express(PCIe),藉此減少延遲(Latency),並提供每個裝置強大的頻寬。這種PB單位量以及微秒時間處理能力的特性需求,讓NVMe儲存技術成為最能符合機器學習需求的不二選擇。
實現AI仰賴周全數據管道
機器學習的關鍵在於數據,若要透過處理數據獲得有意義的結果,須要考慮周全的數據管道。每家企業的數據管道因自身業務需求而各有不同,但一般來說,所有的數據管道可被分解成收集、準備、設計及訓練四個階段。經歷四個階段後的輸出結果將建構一個模型,可在邊緣或核心推算新數據。
由於這個過程通常需要大量數據,每一個階段都必須針對數據流進行優化,以避免產生瓶頸。NVMe介面就是專為這種任務而設計,並能夠透過下列四種方式來協助優化AI數據通道:
.更快速、更具成本效益的數據收集
.更快的數據集準備與運算時間
.更短的模型設計週期時間
.訓練模型時,硬體運用更有效率
NVMe助力 收集數據更智慧
部署AI的第一個挑戰就是收集原始資料,並匯入集中式的儲存中心,而這些原始資料的種類多樣性十分繁雜,可說是廣大無邊。例如:物聯網裝置傳來的感測報告、網路日誌、生產品質報告等。在實際運用上,Apache Spark等商用服務工具可處理這些任務,並對匯入的資料加以過濾,最後累積成未經結構化的數據,再存入NoSQL的數據叢集中。NVMe可協助減少這類伺服器占用的實體運算時間,同時提高反應速度。
傳統的NoSQL叢集都經由多個SATA介面硬碟伺服器所組成,而在儲存PB單位量數據時,傳統硬碟確實是一個經濟實惠的方法。不過若要再進一步提供與達到最大頻寬,每個伺服器通常必須再結合數十個SATA或SAS硬碟。這種架構顯然會增加個別伺服器的體積,並很快就會填滿資料中心的機房,但在此情況下,伺服器的CPU卻大多是閒置且未加利用的。
相形之下,單一的NVMe介面,就能夠取代多個SATA或SAS介面並且提供相等的頻寬,而且只須要插入一片AIC板卡(Add-in-card)或是2.5吋外型規格。換言之,以體積更小的NVMe SSD來取代原本NoSQL伺服器的大型硬碟陣列,就能夠縮小NoSQL節點,並大幅減少整個硬碟叢集占用的機架空間。
如今要訓練人工智慧前,先決條件必須有TB或PB單位量的大數據,然而如此大量的數據,其格式結構通常並非立即可用。因此我們必須先將數據轉換為AI更容易處理的格式結構。太極端的異常值和雜散數據須加以濾除;不適合運用或是不符合法律規範的數據,也須在這個階段先剔除。
NVMe提升數據準備效率
面對這樣的處理需求,非專為高流量設計的儲存系統極有可能因負荷過量而當機。傳統的SAS和SATA每個介面的頻寬有限;相比下,以PCIe為基礎的NVMe介面,頻寬可達6.4GB/s或更高,頻寬優勢更為顯著。在數據準備的階段,頻寬並不是儲存系統的唯一要求,並行性也很重要,由於處理的數據量非常大,需要單個伺服器之內的多個核心及多個伺服器同時平行運算。NVMe最高可支援64K的等候中指令集和64K指令,因而讓伺服器內以及跨伺服器的平行運算更為流暢。
具高頻寬/並行性 NVMe讓模型設計更智慧
將數據整理完畢,並轉為單一易處理的格式結構之後,資料科學家才能開始大顯身手。然而資料科學家要解決的每個問題都不一樣,也因此每次都要透過往復的過程,才能開發獨特的機器學習架構。唯有針對小量的數據子集進行不斷的測試驗證,才能得到一個待選的訓練模型,再進入下一階段。所有科學和工程專案的道理都一樣,一開始會走很多冤枉路,才能找到最終解決方案,也就是需要多次嘗試才能有所結果。
在這個反覆試驗的過程中,單一測試週期的速度會影響最終模型的架構以及機器學習模型的品質,若能將設計及測試週期從10小時縮短為8小時,資料科學家的效率就能提高2倍。過去資料科學家可能一早開始工作,須等待至隔天才能看到數據結果;如今卻能在一天之內完成一項測試,也就是早上先設計模型並進行測試、取得結果,並即時調整參數,然後下午離開辦公室前跑另一次測試,在一天之內執行兩個測試週期。
和前幾個階段一樣,NVMe的頻寬和並行性,在此也可發揮作用,協助資料科學家提高效率。資料科學家的個人工作站、在專屬沙盒(Sandbox)中進行的模型測試,都能利用NVMe的低延遲性,讓作業系統和測試數據集更為順暢,同時還能提供快速效能與頻寬,供分析和測試之用。
記憶體轉換效率高 模型訓練負載量再降低
資料工程師將數據轉成機器學習易於讀取的格式結構和設計出對應機器學習的模型架構之後,接下來就要展開訓練「網路」的實際作業。配有加速器的成千上百部機器開始運作,將格式結構化的資料匯入模型,並在過程中微調模型的參數,直到能夠匯聚成為一個可用於實際應用推斷的模型。
以往的加速器技術是以繪圖處理器(GPU)為基礎,因此儲存效能不構成問題。在此情況下,在伺服器上運作的通用中央處理器(CPU)都有綽綽有餘的時間,處理GPU之間的I/O作業,並且替它準備好下一批數據。然而這種情況已不再適用,如今是交由FPGA或客製化的ASIC來負責執行模型的訓練。
現今的機器學習加速器與過往技術相比,其處理資料的速度呈指數級成長,因此通用CPU在伺服器上運作時,必須更有效率的處理呈指數級成長的I/O。傳統的I/O架構(如SATA及SAS)須轉換為舊有協定,耗費CPU週期運作資源,這會增加I/O指令的延遲性,直接影響加速器的利用率。傳統I/O堆疊也會增加CPU主機的負擔,導致每部處理器所能運作的加速器數量受到限制。
由於NVMe從一開始就是以記憶體傳輸速度儲存概念來設計的協議規格,因此不會發生必須轉換協定而大量耗費運算資源的問題,這可將處理器的負擔降到最小,並確保資料能即時匯入以供下一代的加速器使用。更令人興奮的是,目前正在審查中的擴大版NVMe協定,或稱為控制器記憶體緩衝區(CMB),可透過NVMe處理這些直接記憶體轉換而不需主機的介入,以進一步降低負載量。
NVMe成AI聰明選擇
機器學習與人工智慧應用都圍繞在數據上。收集資料、將其轉換為可用格式結構、再開發學習架構,乃至於最終訓練出一個模型來判讀數據,都需要有效的儲存介面,才能處理PB單位規模的數據量,同時又能將延遲性大幅優化、降至微秒以下。NVMe是專為記憶體速度儲存而設計的技術,可提供最佳儲存介面,供機器學習和更多其他應用使用。
(本文作者為Western Digital企業產品管理部門副總裁)
資安攻擊層出不窮 新創AI產品紛紛問世
新創企業研究機構CB Insights選出的2018最具發展前景的100家人工智慧新創業者,屬於資訊安全防護範疇者即有10家企業。其中,CrowdStrike在2017年市場價值已經突破30億美元,堪稱為新創獨角獸公司;CyberReason達到9億美元的市場價值,亦接近獨角獸公司。分析表現優異的AI資安新創公司,有助更加了解AI資安防護趨勢與產品發展方向。
而觀察這些資安防護業者應用AI的類型,則可分為:端點防護、網路行為分析、網站防護及其他,本文將挑選部分新創案例說明。
AI補足傳統端點防護缺點
所謂端點防護在於保護企業中各種載具的資安威脅,以避免病毒透過員工的智慧手機、企業伺服器乃至於物聯網設備,進而竊取企業資料、勒索或造成企業內資訊系統停擺。傳統端點保護的問題來自於五點:
1.架構複雜:針對不同載具部署偵測軟體太過於複雜,不易管理。
2.執行效率:針對新型病毒會定期下載病毒碼到載具端,影響載具運作效率。
3.缺乏透明:傳統端點病毒缺乏整體的分析各端點受威脅狀況。
4.缺乏智慧建議:傳統端點病毒僅會就可能安全威脅提供阻斷或其他簡單處理動作,不能提供整體防護建議。
5.缺乏積極性建議:傳統端點病毒建議是消極性的防治處理,並沒有根據威脅入侵提供積極的處理方式。
另外,傳統資安端點防護方式是以病毒碼簽名之端點防護方式,主要是針對被病毒感染的檔案,帶有別於其他檔案的執行碼,透過更新病毒碼簽名,以掃描保護的端點載具上是否有潛在威脅。然而,現在的病毒攻擊方式更加複雜,且動態地改變病毒碼簽名或者不從檔案感染進行攻擊,傳統資安端點無法防護。
CrowdStrike主要提供企業智慧端點資安偵測、監控的雲端服務方案。CrowdStrike提供輕量級的端點防護代理程式(Agent),安裝在各種設備載具中,並不須將病毒碼更新到設備載具端,減輕載具負荷,讓智慧手機、物聯網載具也可以輕易地安裝。CrowdStrike核心平台Falcon Platform運行在雲端服務上,透過蒐集各個企業的資安威脅事件(每日超過500億事件、上百萬載具、橫跨176國家),進行機器學習分析,並提供企業整體資安威脅事件的透明化檢視、威脅智慧分析與建議等。
CrowdStrike的威脅智慧分析(Falcon Intelligence)是其AI方案的主軸。Falcon Intelligence不同於傳統資安端點防護方式,是以病毒行為進行學習與分析。Falcon Intelligence運用機器學習蒐集、學習、分析病毒攻擊行為、防護策略,以提供企業資安人員分析病毒的攻擊動機、下一步動作及因應策略。
Falcon Intelligence的蒐集資料來源包括:開源社群訊息、機器訊息、專家知識、暗黑資安攻擊分享網站資料等。企業人員使用Falcon Intelligence,不僅可以運用上述各種資訊來源與專家知識進行分析、事件關聯機器學習技術分析等,也可以直接詢問CrowdStrike專家各種諮詢以及病毒樣本下載解析等。
而因為現代資安攻擊手法更為複雜,Falcon Intelligence透過圖(Graph)運算,以檢視資安攻擊手法,進而進行阻斷、防治或行為學習,由此可以讓企業資安人員檢視資安攻擊路徑與行為。
CrowdStrike的Crowd代表群眾智慧的意義,透過其SaaS服務、累積全球各企業病毒行為、防治動作以及專家的智慧,使得CrowdStrike可以快速地發現新型病毒行為,進而有效地進行防治。CrowdStrike每年營收、訂購顧客均超過100%成長,100萬美元訂單更是年成長5倍。CrowdStrike不僅在端點防護上有其專長、群眾智慧的商業模式更是吸引創投資金不斷投入的原因。
EndGame強調偵測與病毒防護不需要透過雲端連線處理,在端點的代理人程式可離線自動偵測。當企業客戶需要進一步詳細地分析病毒時,可以將相關可疑感染檔案送交至EndGame之私有雲沙盒進行分析,EndGame也不會將相關檔案分享給與其他企業。
EndGame更強調運用MITRE組織的ATT&CK病毒攻擊行為分析框架與模型資料庫,來偵測與防治病毒。MITRE是美國聯邦政府資助的非營利組織,專門協助資訊安全、國土安全、防護安全等。EndGame認為機器學習不見得能夠分類所有的病毒行為,有其限制,故更重視既有人類專家知識辨認各種病毒感染的行為,搭配機器學習來辨認未知的病毒行為。
此外,EndGame運用AI智慧聊天機器人,協助企業資安人員詢問各種防治方法,以更直覺的方式快速地解決資安防護問題。
AI分析網路行為確保資訊安全
當企業運用愈來愈多智慧手機、聯網設備來進行資料交換時,資訊安全的防護不僅可從端點載具上進行偵測與防護,亦可從網路資料傳輸行為進行偵測。特別是許多小型聯網設備如工廠聯網設備、聯網閘道器,無法安裝代理程式。因此,許多新興的方案從網路行為進行資安分析。Darktrace就是運用AI進行網路行為分析,以協助企業進行資安防護。
Darktrace主要產品為Darktrace Enterprise、Darktrace Industrial、Darktrace Cloud、Darktrace SaaS、Darktrace Antigena。其中,Darktrace Enterprise為企業一般網路環境、虛擬環境、雲及SaaS服務。Darktrace Industrial則進一步可以偵測異質設備網路環境。Darktrace Cloud針對Amazon、Google Cloud Platform、Microsoft Azure等雲端環境。Darktrace SaaS則針對Salesforce、Dropbox、Office 365等SaaS服務。Darktrace Antigena則可針對偵測狀況,立即採取隔離或其他行動方案。
Darktrace主要運用非監督式的機器學習,去學習正常與異常網路行為,快速判斷哪個載具有異常網路活動或使用者異常活動並予以提出。Darktrace Enterprise...
小巧/低功耗特性亮眼 Edge TPU鎖定邊緣應用
2018年7月Google在其雲端服務年會Google Cloud Next上正式發表其邊緣(Edge)技術,與另兩家國際公有雲服務大廠Amazon/AWS、Microsoft Azure相比,Google對於邊緣技術已屬較晚表態、較晚布局者,但其技術主張卻與前兩業者有所不同。
Google AI布局逐漸走向邊緣
除了同樣提倡基礎的物聯網閘道器(IoT Gateway)軟體Edge IoT Core、人工智慧/機器學習(AI/ML)軟體Edge ML外,還針對人工智慧/機器學習推出專屬的加速運算晶片,稱為Google Edge TPU(圖1),成為此次盛會一大焦點。
圖1 Google發表僅有1美分銅板面積不到的人工智慧加速運算晶片Edge TPU。
資料來源:Google官網
在Google發表Edge TPU前已發表過Cloud TPU晶片,首次發表是在Google另一個更全面、更盛大的例行年會Google I/O 2016上。Cloud TPU顧名思義用於雲端機房,而TPU是TensorFlow Processing Unit的縮寫,言下之意是針對TensorFlow而設計的硬體加速運算器,TensorFlow則是Google於2015年11月提出的人工智慧框架,是目前諸多人工智慧框架中的一大主流,其他知名的框架如Caffe/Caffe 2、Apache MXnet等。
目前人工智慧框架百花齊放,其他常見的亦有Keras、PyTorch、CNTK、DL4J、Theano、Torch7、Paddle、DSSTNE、tiny-dnn、Chainer、neon、ONNX、BigDL、DyNet、brainstorm、CoreML等。若以簡單譬喻而言,人工智慧的開發撰寫如同文書撰寫,人工智慧框架就如同記事本、Word等文書處理器,功效在於協助與便利開發撰寫。
Google自行開發設計的Cloud TPU僅用於自家雲端機房,且已對多種Google官方雲端服務帶來加速效果,例如Google街景圖服務的文字處理、Google相簿的照片分析、乃至Google搜尋引擎服務等。Google Cloud TPU也改版快速,2016年首次發表後2017年推出第二代,2018年推出第三代晶片(圖2)。
圖2 Google連續三年在Google...
安矽思RedHawk-SC問世 高效能模擬方案滿足先進製程設計
為降低先進製程設計難度,加快產品開發時程,安矽思(ANSYS)宣布推出新一代解決方案RedHawk-SC,以因應複雜的多層物理場(Multiphysics)挑戰,包括晶片熱效應、老化(Aging)、熱感知統計電子遷移預算(Statistical Electromigration Budgeting, SEB)、靜電放電(Electrostatic Discharge;ESD)及製作給整個封裝與系統做模擬的晶片功率模型(Chip Power Model, CPM)等;該產品應用範圍包含7和5奈米(nm)等先進製程節點。
安矽思半導體事業部副總裁暨總經理John Lee表示,不論是汽車、消費性電子產品、行動裝置等市場的半導體IC設計,皆朝高能源效率、高效能、高可靠性方向發展;特別是走到先進製程階段(7奈米和5奈米),晶片體積越來越小,但功能不斷增加,使得製程愈來愈複雜,對於物理場的模擬計算需求是過往的十倍以上。
Lee說明,以往2x奈米、1x奈米晶片在設計、驗證的階段,可能只須模擬2~3種物理場狀況(如只測試晶片熱效應、電源損耗等)。然而,隨著晶片製程愈來愈複雜,為確保IC產品的可靠度並降低其電源損耗,晶片在設計和驗證時,須模擬、運算的項目也逐漸增加,不僅僅是基本的電源、產品壽命,像是連ESD、SEB等因素都須納入測試,模擬工具的運算效能也因而須跟著提升。
為此,安矽思推出RedHawk-SC解決方案,該產品以ANSYS SeaScape為基礎,具備大數據架構以因應電子系統設計及模擬設計需求,同時還具有高度可擴展性,能進行參數掃描和分析;並可線性擴展容量和性能,以支援設計人員於封裝和系統設計時提升晶片可靠性,降低開發成本。
Lee進一步說明,RedHawk-SC有兩個主要特點,首先是支援高度擴展性的彈性計算引擎,可透過雲端或是客戶端為主的平台,提供以Linux核心的方案,快速、大量的增加運算規模,進而加產品模擬速度;另外一個特點是大數據分析,在現今的晶片設計當中,有數百、數千萬的資料數據,設計人員很難在短時間內掌握所需的資訊,而透過大數據分析可讓設計人員很快的得知所需資訊,降低搜尋資料時間,加快產品開發時程。
除此之外,Lee提到,RedHawk-SC還具備機器學習功能。在進行IC設計時,由於運算量大,因此會有許多種運算結果(上百或上千),而究竟哪些是正確答案正確,哪些結果又需要修正,多是仰賴資深研發人員進行判斷。而為了讓資淺的工程師能快速汲取資深人員的經驗,加快產品開發時程,RedHawk-SC便透過機器學習,將這些數百、數千計的運算結果加以分類、歸納,讓設計人員能輕易了解遭遇到何種狀況及如何排除,如此一來便可加快產品設計時程。
人工智慧用處多 半導體製造走向智慧化
為了確保最終良率,每家半導體業者都必須在晶圓生產過程中安插或多或少的製程控制(Process Control)節點。這些節點除了可監控晶圓製程的良率變動外,也能早期發現有問題的晶圓,避免其進入下一個製程步驟,徒然浪費時間。
然而,製程控制是相當昂貴的,除了要設置對應的檢測機台外,檢測本身也需要時間,更需要人力來判讀機台數據背後所代表的意義。因此,製程控制究竟該如何進行,才能在效率與良率間取得平衡,遂成為每家半導體製造業者都必須回答的問題。
製程資料浩瀚如煙海 AI加快分析速度
台大資工系教授張智星(圖1)表示,對晶圓製造業者而言,從製程機台取得資料只是第一步,後續的資料分析才是能否從資料中萃取出關鍵資訊,進而改善營運、提升良率的關鍵。過去他曾經領導一支研究團隊,利用台積電提供的資料,結合機器學習技術,發展出可自動對晶圓缺陷分布圖進行分類的軟體應用。這項研究的成果,就為台積電帶來很大的經濟效益。
圖1 台大資工系教授張智星表示,藉由機器學習,軟體系統可以自動判斷晶圓缺陷的分布狀況,省下大量人力跟時間。
張智星解釋,晶圓上不合格晶粒的分布狀況,是用來分析製程缺陷成因的重要資料。某些特定的缺陷分布狀態,可以回推出造成晶粒缺陷的原因,例如當不合格晶粒在晶圓上呈線型分布時,晶圓在製作過程中被刮傷,就是最可能的原因。
圖2是幾種典型的缺陷分布型態,對人類來說,這種缺陷分布的圖樣是很容易分辨的,因為其輪廓特徵的差異十分明顯,例如缺陷高度集中在晶圓的某個特定角落、中央或是環狀分布在晶圓的邊緣,而這些圖案之所以出現,跟前面的某幾道製程步驟有關。因此,晶圓缺陷分布圖是製程工程師檢視製程狀況非常重要的工具。
圖2 幾種典型的晶圓缺陷分布狀態
過去台積電的製程工程師每天都要耗費不少時間檢視不良晶粒的分布圖。而隨著台積電的產能規模越來越大,工程師耗費在這上面的時間也越多。張智星指出,根據台積電當時提供的資料,2013年第一季,該公司總共生產了388萬片晶圓,相當於每天產出4.3萬片晶圓。這意味著當時台積電的工程團隊每天得看4.3萬張分布圖,耗費的人力跟時間是相當可觀的。而隨著台積電的產能規模越來越大,這項成本花費只會更高。
也因為如此,台積電很早就開始把腦筋動到機器學習上,因為圖形辨識跟分類,正是機器學習最擅長的應用。若能成功導入,每年可以省下至少100萬美元以上的人力成本。
張智星表示,因為他的主要研究領域是資訊工程,對半導體製程所知有限,因此在與台積電合作的過程中,只專注在圖像辨識上。在他的研究團隊拿到台積電提供的資料集之後,就開始分析,這些缺陷分布圖究竟有那些特徵,是可以被萃取出來的。
其中,最直觀的就是圖形的輪廓,這是人類的眼睛一眼就能看出的特徵。但還有其他不那麼直觀的特徵可以利用,例如雷登變換(Radon Transform)。也可以用統計取樣的技巧來對缺陷圖進行分析,例如對整片晶圓進行2乘2矩陣取樣,然後予以編碼,也能得出有意義的數值。
DNN應用有其限制
不過,張智星也提醒,雖然神經網路是一項很紅的技術,但神經網路不是所有資料分析問題的理想解答。以深度神經網路(DNN)為例,這項技術要能派上用場,先決條件是要有大量的資料集,而且最好是影像資料。其次,必須有非常強的運算硬體支援,不然會跑不動。換言之,如果可以用來訓練神經網路的資料集不夠,或是手上可用的運算硬體效能不足,最好還是別使用神經網路。
此外,DNN還有一個特性,是所有想利用DNN發展應用的開發者都必須注意的--DNN系統雖可產生預測結果,但卻無法解釋這個預測結果是怎麼來的。換言之,DNN只知其然,不知其所以然。如果應用需求不只要預測結果,還要進一步解釋為何是這個結果,最好別使用DNN。了解每個工具的特長,用最適合的工具來解決問題,是很重要的。
設備業者看AI--產品加值/升級的關鍵
由於半導體設備很早就已經實現機台聯網跟資料互通,因此對半導體設備商來說,如何用人工智慧提升機台的產能/稼動率,或是加快新機台研發的速度,是比較關切的話題。
Lam Research副總裁暨首席工程師Keith Wells指出,AI技術已經成熟到可以對產業應用產生影響,而且成本合理的地步。在Lam Research內部,針對AI應用的議題,發展方向比較偏向智慧製造的層面,例如透過其Equipment Intelligence套件,讓機台具備自我感知、自我維護與自動適應的能力。
自我感知指的是機台對於其內部零件具備感知能力,包含零部件的種類與零部件過去、現在的狀態。自我維護則是指機台能知道何時需要維修,並且會自動進行維修。自動適應則是指機台能因應製程跟來料變化自動進行補償,以便把生產良率維持在一定水準之上。
就設備供應商的角度來觀察,半導體設備的智慧化跟晶圓生產的智慧化,是未來必然要走的路,因此整個生態系,包含機台本身、整個晶圓廠與機台零部件的供應商都必須攜手合作,實現資料共享。Lam Research對於以AI為基礎的半導體智慧製造有很強的承諾,並且正與其客戶合作,共同打造能符合未來需求的解決方案,包含更強大的資料存取系統,以及先進分析工具環境。
但對半導體設備供應商來說,最大的挑戰來自於客戶需求的多樣化。每家客戶對於如何利用AI來提高生產力這個議題都有自己的想法,而且彼此之間或多或少有些出入。因此,客戶通常都想要客製化的解決方案。但客製化通常意味著更長的開發時間與更高的開發成本,因此業界必須創造一個大家都能接受的標準化框架,才能加快產品交付到客戶手上的速度。
科磊(KLA-Tencor)對AI的應用方向,看法也跟Lam Research有些類似。該公司資深副總裁暨行銷長Oreste Donzella表示,由於科磊的主力產品是半導體檢測設備,涉及到很複雜的光學設計,因此在產品開發過程中,用機器學習來進行各種條件模擬,加快新產品設計開發的速度,已經是行之有年的作法。
至於晶圓檢測設備所產生的大量資料要如何利用人工智慧進行分析,通常是由客戶端主導,科磊則扮演從旁協助的角色。因為這些資料是客戶的商業機密,所以資料要如何分析跟使用,還是要由客戶做決定。
不過,針對後段封裝跟測試,情況就不太一樣了。Donzella指出,跟前段晶圓製造相比,封裝業者分析跟控制資料的能力比較不成熟,因此封裝業者要發展自己的人工智慧系統進行資料分析,難度相對較高。因此科磊也正在評估,自家的軟體跟服務部門能如何協助封裝業者,在導入人工智慧的路上向前邁進。
Xilinx推新資料中心/AI加速器卡
自行調適與智慧運算廠商賽靈思近日推出強大加速器卡Alveo,用來大幅提高業界標準伺服器的效能,應用版圖涵蓋雲端與就地部屬(On-Premise)的資料中心。透過Alveo,客戶在執行即時機器學習推論、影片處理、基因研究、及資料分析等這類重要資料中心應用時,就能在低延遲的情況下,展現突破性的效能改善。搭載賽靈思UltraScale+FPGA的Alveo U200與Alveo U250現已開放大量訂購,客戶可重新配置硬體,藉以針對持續變化的作業負載、新標準、及更新後的演算法進行最佳化,省下替換產品衍生的成本。
Alveo加速器卡為各種類型應用帶來顯著的效能優勢。在機器學習方面,Alveo U250的即時推論傳輸率比高階CPU高出20倍,甚至在低於2毫秒的低延遲應用方面,也比像高階GPU這類固定功能加速器高出4倍。此外,Alveo加速器卡的延遲比GPU減少了3倍,在執行即時推論應用方面帶來顯著的優勢而在像是資料庫搜尋等應用方面,能大幅加速、並提供比CPU高出90倍的效能。
Alveo背後有整個產業體系夥伴與OEM廠商的全力支持,他們開發與驗證各種重要應用,包含人工智慧/機器學習、影片轉碼、資料分析、金融風險模型、安全、以及基因研究等領域。此外,多家頂尖OEM廠商正與賽靈思合作,聯手驗證多種伺服器產品與Alveo加速器卡的相容性。
奧寶引入AI提升產量/強化FPD生產線
奧寶科技於2018 Touch Taiwan 展會發表先進人工智慧技術(AI)解決方案,這些解決方案包括 Orbotech Quantum AOI(自動光學檢測)、Orbotech Quantum AOI Flex系列、Array Checker電性測試系統、Prism修復系統,以及奧寶科技全新的修補技術,適用於microLED、汽車、行動裝置、穿戴式裝置及高階電視顯示器等。
奧寶科技台灣分公司顯示器部門總經理 曹正鵠先生表示,台灣顯示器製造商身處顯示器市場最前線,是業界創新利基市場與開發型應用新興製程的先鋒。奧寶科技與台灣客戶密切合作,致力於提供兼具自主學習與自我改良等特性的先進解決方案,協助客戶提高品牌價值,產量、提升生產效能,以及降低營運成本。
奧寶的人工智慧願景建立在三個獨有的元素之上:數據控制,卓越的操控能力和專家級知識應用。基於數十年的業内經驗及專業知識,熟知電子產品各個製程領域的生產解決方案,奧寶能夠直接且獨有的訪問大量準確和可靠的生產數據,能夠準確定位于客戶網絡進行深度學習。
另外,奧寶科技通過在網絡中嵌入特定的程式和應用知識,簡化了網絡流程中冗長複雜的標簽化和訓練流程,從而使整個流程更加高效。透過將業界經驗和專業知識集中在這一段,從而實現人工智慧和機器學習的基礎,奧寶可以實現創建智慧化,更强大的AI解決方案,以滿足每個客戶的不同需求。由此產生的機器學習水平和更智能,更精確的人工智慧將優化製造過程,從而提高產能,降低運營成本。