AI
人工智慧結合機器視覺 創新應用源源不絕
ML增添機器視覺應用彈性
研華網路暨通訊事業群資深協理林俊杰(圖1)指出,機器視覺在製造業應用已經有相當長的一段歷史,且隨著檢測對象不同,分化出許多次領域,例如針對電子元件、電路板的自動化光學檢測(AOI)、針對產品組裝的視覺校準/對位,乃至成品/半成品的外觀瑕疵檢測等,都可以歸類於機器視覺的範疇。
圖1 研華網路暨通訊事業群資深協理林俊杰表示,機器學習可望讓機器視覺變得更具應用彈性,系統整合商更容易將業務觸角延伸到其他領域。
但現有機器視覺系統的核心,多半是以規則為基礎的軟體程式,當工業相機拍攝到過去從未見過的影像,取得的特徵值無法對應回既有的軟體系統時,就會很容易出現誤判或無法識別。這使得機器視覺系統的設計規畫跟部署,變成一項非常仰賴專家的工作。唯有針對某一類應用有深入研究,並且累積了大量經驗的SI,才能寫出符合生產線需求機器視覺軟體。而且,某個特定領域的專家,要跨到其他機器視覺的領域,也不是那麼容易的事情。
基於機器學習(ML)的機器視覺,則是完全不同的典範。一套辨識模型或演算法,經過不同的資料集訓練,就可以辨識出不同型態的圖樣,而且隨著工業相機取得的影像資料越多,累積的訓練資料增加,系統辨識的準確度還有機會進一步改善。
另一方面,對機器視覺SI業者而言,基於ML的視覺系統還有更容易跨領域應用的優勢。例如一個經過訓練的免洗杯辨識演算法,只要稍加調整跟再訓練,就可以用來辨識不同種類的杯子,例如玻璃杯、馬克杯,因為這些杯子都有一些共通的特徵值。如果是傳統的機器視覺軟體,開發過程就得從頭來過。
凌華科技資深產品經理許凱翔(圖2)指出,機器學習對機器視覺技術的應用拓展,能做出非常大的貢獻。在過去,機器視覺軟體是以預先設定的規則為基礎,工程師在開發軟體時,必須用演算法把想要偵測的影像特徵,例如瑕疵的特徵詳實描述清楚,系統判斷的準確率才會高。
圖2 凌華科技資深產品經理許凱翔認為,遇到本身帶有圖樣的待檢測物件,機器學習的優勢非常明顯。
但在實際應用上,這種方法常會遇到困難,例如待測物本身就帶有某些圖樣(Pattern)時,當瑕疵跟背景圖樣混在一起,系統要精準辨識出瑕疵的難度就很高。這種情況在電子業其實很常見,例如TFT-LCD面板、太陽能電池片(Solar Cell),本身就是有圖樣的產品,要用現有的機器視覺去抓出這類產品的瑕疵,是很大的挑戰。
對機器學習來說,圖樣辨識正是它最擅長的工作。因此,基於機器學習的機器視覺系統,只要圖像處理、判斷的速度夠快,就能為機器視覺技術的應用打開很多新的可能性。
FPGA/GPU對決戲碼上演
要讓機器視覺系統具備執行機器學習推論的能力,相關設備必須具備更高的運算能力。目前市場上已經有許多半導體業者推出機器學習解決方案,但由於各家業者的核心技術不同,因此在性能、功耗與應用彈性方面,存在很大的落差。
林俊杰指出,目前機器學習最理想的開發平台是GPU,因為GPU有最好的軟體適應性,設計迭代最方便,但如果是要部署到生產現場,GPU可能就不是那麼理想,因為GPU的功耗較高,有時還是需要搭配主動式散熱。但很多生產現場是不允許散熱風扇存在的,例如烤漆作業區,因為環境裡有粉塵,不只容易導致風扇故障,萬一有火花產生,還有可能引發爆炸。
因此,如果是要部署到現場的設備,其所搭載的GPU理想上應該採用低功耗版本,以避免設備必須仰賴主動式散熱。但低功耗版本的GPU,運算效能也相對有限,應用開發者必須對此做出取捨。
相較之下,FPGA是比較適合部署在現場的運算硬體平台,但FPGA的設計迭代過程比GPU耗時,軟體修改後,硬體描述語言(HDL)也要跟著調整,才能實現最佳化。因此,基於FPGA的機器視覺系統,開發時間必然會比基於GPU的系統來得漫長。
許翔凱則表示,GPU的開發速度最快,而且幾乎每個研究人工智慧(AI)的工程師都熟悉GPU平台的開發環境。人才跟平台的易用性,是凌華決定跟NVIDIA合作,率先推出整合Jetson TX-2嵌入式GPU的NEON-J工業相機的原因。
不過,由於Jetson-TX2是專為嵌入式應用設計的低功耗GPU,其運算能力無法跟桌上型電腦、伺服器使用的GPU相提並論,因此目前NEON-J不能執行太複雜的機器學習模型,否則會來不及對影像做出即時判斷。
即便NEON-J目前還無法執行太複雜的模型推論,但其基於機器學習的特性,已經成功為機器視覺打開新的應用市場。舉例來說,食品業的產品分類/分級應用,就很適合用NEON-J來執行。像是肉品分切作業,要依照肉品的油花分布狀況來判斷肉品等級,或是肉品出於哪個部位,就要靠圖像識別來實現,傳統基於規則的機器視覺軟體很難處理這種問題。
另一個應用案例是冷凍披薩工廠的品管。披薩廠商在產品包裝前,要先檢查披薩上的餡料數量、狀態做出檢查,才能避免NG的產品賣到消費者手上。從機器視覺的角度,這是一個典型的圖樣辨識問題,例如鳳梨、香腸的片數是否符合標準,有沒有破損,就得靠圖樣識別來做。因為披薩上的鳳梨、香腸切片可能有大有小,傳統的機器視覺分析軟體遇到這種待測物,容易出現誤判。
ASIC加速器設計過於局限 不利機器視覺應用
至於眾多大廠與新創公司紛紛布局的專用加速器,對機器視覺開發商來說,吸引力恐怕很有限。林俊杰認為,專用加速器最大的問題在於彈性不足,只能對特定模型發揮加速效果,如果機器視覺系統使用的模型不在其支援範圍內,不是加速效果不好,就是根本無法執行。
這正是在機器視覺系統中使用專用加速器最大的問題--機器視覺要偵測的物件或圖樣有很大的變異性,使用的模型可能不是主流。相較之下,安全監控產業的需求單一,如果需要用到人工智慧,不外是用來實作人臉識別、人流偵測、虛擬圍籬等功能,使用的模型也只有固定幾種,因此晶片開發商在設計晶片時,可以很容易掌握客戶的規格需求。
此外,跟安全監控相比,機器視覺是一個規模更小的利基市場,因此晶片商恐怕不會這麼快就將產品線延伸到機器視覺相關領域。因此,林俊杰預估,至少在未來兩到三年內,機器視覺開發商如果要採用人工智慧,處理器的選擇應該只有GPU跟FPGA兩種。
訓練資料集取得不易為最大發展障礙
總結來說,對機器視覺應用來說,機器學習是一個很值得期待的互補型技術。以規則為基礎的分析軟體,在量測物件尺寸、辨識QR Code、條碼,以及引導機器手臂在2維平面上運作,是很有效率的,可靠度也高。但如果是要處理跟圖樣有關的問題,機器學習是比較理想的解決方法。
不過,對大多數基於機器學習的系統來說,訓練資料的數量跟品質,還是許多開發者所面臨的最大難題,基於機器學習的機器視覺也不例外。現在許多網路大廠都已經提供雲端訓練工具,因此,開發者要訓練自己的模型,門檻已經比以往大為降低,但要取得足夠且高品質的訓練資料集,還是要投入很多資源。
近幾年中國掀起人工智慧熱潮,也促成一個新的行業--資料標籤公司誕生,但這些專門提供資料標籤建置的服務業者,通常沒有足夠的能力處理工業製程中所拍攝的影像。舉例來說,金屬加工件的邊緣出現毛邊,但程度要多嚴重才應該被判定不良品,就只有那個行業的老師傅能準確判斷,不在該行業的標籤建置人員很難做好這項工作。因此,即便是採用機器學習技術,SI想要跨到新的領域,還是有一定門檻要跨過。
許翔凱就透露,有一家客戶曾經把資料集建置的工作外包給專門做資料標籤的公司,但據此訓練出來的模型,準確率跟預期有一段落差。客戶回頭檢討才發現,訓練模型用的資料集有很多標籤是錯誤的,因此訓練出來的模型當然不準確。
因此,如果工廠真的有意導入基於機器學習的視覺系統,在資料建置方面,最好還是不要假他人之手。讓自家產線上的作業員協助標記,成果會比外包好,但相對的也會增加作業員的工作負擔。
除了標籤的問題外,不良品的影像資料取得,其實是很困難的事。以凌華自己的產線為例,一條成熟的生產線,產品良率至少都在9成以上,不良品的數量非常少。這意味著凌華很難收集到不良品的影像去進行模型訓練。
也因為不良品的影像很難取得,因此有很多研究者嘗試用變造影像的方法來擴充資料集,例如把影像扭曲、旋轉、添加雜訊等。從一些實驗數據來看,這種方法可能有效,但在工業應用上,用這種資料集訓練出來的模型能不能用,還需要進一步驗證。此外,也有一些新的模型只需要少量訓練影像資料,就能達到不錯的準確率,但這些模型是否適合機器視覺應用,也還需要進一步研究。
因此,機器視覺系統要改以機器學習為基礎,並大量普及到工業現場,還需要一些時間來醞釀。但整體來說,因為以機器學習為基礎的機器視覺,對各種應用情境的適應能力較佳,因此長期來看,SI或軟體開發者應該還是會逐漸轉向機器學習。
迎戰5G大數據運算難題 GPU力助電信商導入AI效能
5G高頻寬、低延遲與大資料量傳輸特性,預期將會徹底改變人們的生活,也意味著在5G時代將帶來處理大數據運算的難題。為此,電信商開始攜手GPU廠商,企圖以導入人工智慧(AI)效能的方式,解決5G資料量爆炸的課題。
NVIDIA全球電信產業發展負責人Soma Velayutham表示,雖然5G環境不會一蹴可幾,但不容置疑的是它與過去的通訊技術截然不同。舉例來說,智慧手機與雲端服務的普及化,使得消費者每天使用社群媒體和影音串流的應用服務逐漸增加,可看到4G用戶每天所產生約1GB數據資料量,而5G時代,在雲端AR/VR、車聯網、工業物聯網及智慧城市的帶動下,每天用戶所產生的資料將高達300GB,此現況也將為布局5G的電信業者帶來全新挑戰。。
Velayutham進一步說明,從4G轉型為5G網路的過程中,最大的不同在於5G提升了100倍的頻寬、200倍的密度與40倍的延遲速度,而這些效能亟需仰賴更多的雲端支援,也就是軟體定義網路(SDN)的技術,同時結合AI、深度學習、大規模多重輸入多重輸出(Massive MIMO)與可編程(Programmable)等技術能力予以支援,藉此滿足5G所需要的頻寬、網路速度與大連結效能。
而當5G應用需要更多的運算需求,CPU成長曲線也正逐漸趨緩當中,也有人說摩爾定律即將步入終點。Velayutham認為,網路速率以30倍的速度飛快成長,通用型運算處理的CPU已無法滿足需求,此時就需要GPU加速器的運算才能予以滿足。以NVIDIA來說,提供了軟硬體整合平台,其中結合GPU Cloud、高效能運算(HPC)、AI、視覺化(Visualization)等能力,超越摩爾定律的效能,並以每年1.5倍的指數級速度成長,預計2025年成長將達千倍以上。
當5G、AI與GPU的相遇會產生甚麼火花呢?時至今日,也有越來越多的電信商開始產生濃厚興趣,包含中國移動、AT&T、SK Telecom與Verizon皆有相關的布局。舉例來說,SK Telecom將目標放在智慧城市的應用,期能透過智慧影像分析(IVA)的方式保護公民與財產,實現這項能力背後須具備即時分析百萬台攝影機之數據的技術,須仰賴深度學習與強大的運算能力。基於此,SK Telecom採用NVIDIA GPU支援AI遠端影像監控應用服務(VSaaS),提升5倍的訓練速度,並透過TensorRT拓展推理引擎能力,使其在不犧牲精度的情況下兼具成本效益。
此外,Verizon則是希望了解設置於各地的基地台網路品質,期能藉由GPU的導入提升基地台網路分析能力並確保網路QoS。據了解,Verizon使用NVIDIA GPU將傳統基於ML-ARIMA演算法升級於DL-LSTM,從而提升網路分析精度並縮短分析時間,將過去需要一整天分析的時間,所短成一小時內完成。
Velayutham強調,NVIDIA與內容供應商、行動設備,以及各類型消費性電子商合作,在此基礎下,已清楚了解各種應用所面臨的困境與挑戰,扮演串聯上中下游5G相關產業與應用的關鍵角色,預計將能更加深入的協助電信商克服5G挑戰,加速其5G相關建設的布署。
助力AI/ML應用發展 Sensor Hub開發平台報到
AIoT發展熱戰方酣,無論是晶片商、系統服務或OEM廠商都大舉投入相關技術。為了能加速人工智慧(AI)與機器學習(ML)應用更加蓬勃,英飛凌推出可編程感測器中樞(Sensor Hub)開發平台方案,不僅提供各種感測元件,同時更協助OEM廠商設計樹莓派(Raspberry Pi)開發板,以混搭核心設計風格,滿足更為彈性的開發模式,因應AI和ML的應用發展。
英飛凌大中華區電源管理及多元化市場高級經理廖明頌表示,感測器技術能提供終端裝置具備五官能力,使人們能生活在更直覺與智慧化的環境下。為了有效發揮感測元件極致性能,該公司以從硬體為基礎的角色轉變成為應用服務為目標的廠商,提供完整方案給終端客戶。透過Sensor Hub開發平台概念,幫助OEM廠商AIoT產品得以快速面世,並導入於智慧樓宇、老人照護中心、玻璃防爆系統與自駕車等應用。
事實上,Sensor Hub開發平台概念早已發酵於垂直應用領域,而在消費型產品應用領域嶄露頭角,也不過僅有2~3年的光景,相較之下是一個比較新的概念。廖明頌談到,雖然大多數的廠商具備Sensor Hub開發平台的概念,但若非無完整的感測器產品系列,以及演算法運算的能力,是非常難以打造出此開發平台。
舉例來說,若某家公司僅有1~2類的感測器,僅能將相關應用鎖定於與這兩種相關的功能,在開發設計時就不會有太多的彈性與空間;再者,大多數廠商主要提供既有的MCU結合感測器開發方案,故即便有多樣化的感測器元件,但若要改變應用領域,則須套用另一種類型的開發工具。
相較之下,英飛凌不僅能滿足五官(除了嗅覺還在研發階段,但離實際面世時間不遠)的感測功能,並提供Raspberry Pi開發板設計,協助OEM廠商做初期部分開發,並有選用不同類型MCU的彈性,讓開發商可專注於API開發,使其得以在關鍵技術轉捩點奪得先機。
廖明頌指出,Sensor Hub開發平台已包辦部分Design House所需處理的工作,目的是為了強化AIoT的開發生態鏈,啟發更多元的創新並將其商品化,落實於各種不同應用場景。
整體而言,Sensor Hub開發平台的概念就是一層層疊加不同的感測技術,最大的挑戰在於後端演算法開發技術,而這部分需要透過感測數據的蒐集、機器學習分析,兩者雙管齊下方能滿足其效能。
廖明頌表示,從目前廠商接受度來看,大致可分為兩大類型。一種為實際生產產品的ODM、OEM廠商,以縮短產品上市時間為目標,期能有開發完成的演算法直接導入商品;而另一類型為Trend Leader,偏向於長期合作的關係,透過彼此軟硬體技術能力整合,打造出更具價值的AIoT應用服務。
傳統SoC效能有瓶頸 MPSoC驅動AI多元應用
放眼未來,在面對更先進的神經網路時,能隨時進行調整的靈活性是我們關注的焦點。現今廣受歡迎的CNN正加速被新型的先進架構所取代。然而,傳統系統單晶片(SoC)的設計必須要使用當前的神經網路架構知識,而且從開發到部署通常需花費約三年的時間,像RNN或膠囊網路(Capsule Network)等新型神經網路,可能會使傳統SoC變得低效,且難以提供保持競爭力所需的效能。
因此,若嵌入式AI要滿足終端使用者的期望,特別是要跟上可預見未來裡不斷提升的需求,就必須採用更加靈活的自我調適運算平台。我們利用使用者可配置的多重處理系統晶片(MPSoC)元件,整合主應用處理器和可擴展的可編程邏輯結構,其包含可配置的記憶體架構與滿足可變精度推論所需的訊號處理技術,來滿足上述需求。
推論精度最佳化提升效能
在傳統的SoC中,決定效能特性的因素如記憶體架構和運算精度是固定的,透過核心CPU定義,最小值通常為8位元,即使針對特定的演算法最佳精度可能更低。而MPSoC因能夠支援可編程邏輯最佳化至電晶體層面,因此能根據需求讓推論精度降低至最低1位元。此外,這類元件還包含成千上萬可配置的DSP分割(Slice),能高效處理乘法累加(MAC)運算。
當能自由地最佳化推論精度時,就能根據平方定律提供剛好滿足需求的運算效率。也就是說,單一位元的運算當用1位元核心執行時,相對於用8位元核心完成時,所需的邏輯僅為1/64。此外,MPSoC能讓推論精度針對每層神經網路做出不同最佳化,進而以最大的效率提供所需的效能。
MPSoC晶載記憶體提升4倍
除了透過改變推論精度來提高運算效率之外,配置可編程晶載記憶體的頻寬和結構,能進一步提高嵌入式AI的效能和效率。當運行相同推論引擎時,客制化的MPSoC與傳統運算平台相比,晶載記憶體可能達到4倍以上,而記憶體介面頻寬可能達到6倍。記憶體的可配置性能幫助使用者降低瓶頸,並最佳化晶片資源的利用率。此外,典型的子系統僅具備有限的晶載整合快取記憶體,因此必須與外接儲存裝置頻繁互動,導致延遲與功耗的增加。在MPSoC中,大多數記憶體交換都在晶片上進行,因此可以大幅提高速度,且能省下超過99%因與外接記憶體互動所產生的功耗。
解決方案的尺寸大小也越來越重要,特別對採用行動AI的無人機、機器人或無人/自動駕駛汽車而言更是如此。在MPSoC的FPGA結構上運行的推論引擎可以僅占用傳統SoC八分之一的晶片面積,這能讓開發者在更小的元件中建構功能更強大的引擎。
此外,MPSoC元件系列為設計人員提供豐富選擇來建置推論引擎,能支援最節能、成本效率最高、面積占用最小的方案,進而滿足系統效能需求。一些通過汽車應用認證的零件具備硬體功能安全特性,達到業界標準的ISO 26262 ASIL-C安全規範,這對自動駕駛應用而言至關重要。例如賽靈思的Automotive XA Zynq UltraScale+系列採用64位元四核Arm Cortex-A53和雙核Arm Cortex-R5處理系統(圖1),以及可擴展的可編程邏輯結構,因此就能在單個晶片上整合控制處理、機器學習演算法和安全電路,同時具備故障容錯能力。
圖1 賽靈思的Automotive XA Zynq UltraScale+系列符合ISO 26262 ASIL-C安全規範。
現今嵌入式推論引擎可建置於單個MPSoC元件內,且功耗低至2瓦,這對行動機器人或自動駕駛汽車而言都是合適的功耗水準。傳統運算平台即便現在也無法以這麼低的功耗運行即時CNN應用,未來也不太可能在更嚴格的功耗限制條件下,滿足更快回應和更複雜功能的需求。採用可編程MPSoC的平台能夠提供更高的運算效能、更高的效率,並在15瓦以上的功率水準下減少面積和減輕重量。
若開發者不能在其專案中輕鬆應用這些優勢,那麼這些可配置型多平行運算架構的好處就僅限於學術領域。因此,若想要成功應用,需要有適當的工具來協助開發者最佳化其目標推論引擎的建置。為了滿足相關需求,賽靈思不斷擴展其開發工具和機器學習軟體堆疊的生態系統,並與專業夥伴合作,一起簡化與加速電腦視覺和視訊監控等應用的建置。
藉由SoC的可配置性能為目前應用創建最佳平台,也讓AI開發者能夠靈活地跟上神經網路架構快速發展演進的需求。業界遷移至新型神經網路的可能性,對於平台開發者來說是一個巨大的風險。然而,可重配置的MPSoC透過重配置能力,以及當前最先進的策略來建構最高效的處理引擎,能讓開發人員靈活地回應神經網路架構方式的變化。
工業控制、醫療設備、安全系統、機器人和自動駕駛汽車等越來越多的設備內已嵌入AI,利用可編程邏輯結構的MPSoC元件所具備的自行調適加速技術,是保持快速反應、高階功能及維持競爭力所需的關鍵。
(本文作者為賽靈思策略市場開發總監)
人工智慧技術引發各領域AI投資熱潮
人工智慧(AI)將深入各行各業、個個角落,根據產業研究機構資策會MIC研究指出,AI將成為基盤性技術,全球人工智慧的科技支出,2016年約為4.5億美元,但預計於2020年達到192.8億美元、2021年更將突破達到289.6億美元,顯示全球公私領域皆將人工智慧視為科技研發投入的重點,並將逐漸導入應用以強化自身競爭力。
另外,全球人工智慧已在許多領域展現影響力,以應用類型的營收為例,資策會MIC認為,2016~2025年其累計收入最大者為靜態圖像標記與分類,產業規模達80億9780萬美元,其次為演算法交易策略75億4050萬美元,而性能提升則能創造73億6640萬美元商業價值,其他如病患數據處理提升、預測性維護、物件辨識等都有不錯的商業價值,顯現AI正在逐步改變各種基盤性技術。
再者,商業營運、生產流程等也將試著由人工智慧的導入,來提升營運的效率。全球自動化與人工智慧商業支出中,投入最高比重智慧化流程自動化(Intelligence Process Automation)顯示出部分廠商投入人工智慧主要的目的在於改善現有的生產流程;其次,則為機器人流程自動化,並且有比例擴張的情況,顯示未來生產流程中將有更多的機器人,而人工智慧則可導入進行最佳化應用。
產業需求紛湧現 AI鋒頭銳不可擋
從網路上可看到一則小故事,晉朝時有一位叫王質的樵夫,有一天他到信安郡的石室山(今浙江衢縣)去打柴。看到一童一叟在溪邊大石上下圍棋,於是把砍柴用的斧子放在溪邊地上,駐足觀看。看了多時,童子說:「你該回家了。」王質起身去拿斧子時,一看斧柄已經腐朽了,磨得鋒利的斧頭也鏽得凹凸不平了。王質感到非常奇怪,回到家裡後,發現家鄉已經大變樣。無人認得他。提起的事,有幾位老者都說是幾百年前的事了。原來,王質誤入仙境,遇到了神仙,仙界一日,人間已百年。
這個故事本來是說凡人的壽命短暫,需要多做好事修煉成仙,才能達到世人渴望長生不死的願望。不過換個角度想,圍棋這種遊戲讓連神仙來下也要思考這麼久,可見得圍棋是多麼難的一種遊戲。網路上還說到北宋科學家沈括在「夢溪筆談」中曾粗略估算過棋局的變數,稱「盡三百六十一路,大約連書萬字四十三,即是局之大數」,也就是指3的361次方,這實在是一個天文數字。
這是什麼一個概念,天上的星星總數大約是10的23次方,而3的361次方相當於10的170次方再乘上2,這可是比天上星星的總數後面還要乘上好幾百個零的倍數。所以說圍棋要下得好,不僅僅要會算,還要有策略,更需要有大局觀的視野。就是因為圍棋這麼難,所以電腦棋藝遊戲裡,圍棋這種遊戲很難達到高手的境界,不是棋藝太差,就是速度太慢,但AlphaGo的橫空出世,改變了電腦在整個圍棋遊戲的地位。
AlphaGo展露深度學習效能震驚圍棋界
在圍棋上AlphaGo用三個步驟贏遍人類,第一步驟是規則學習(Policy Network),學習人類所有頂尖的棋譜,用以模仿高手的招式。第二步驟是招數學習(Value Network),評估所有招數優劣,用以判斷不同招數在這個棋局的獲勝機率,第三步驟是布局學習(Tree Search),用來分析棋局的各種可能變化,並推演棋局未來的可能演變,用以決定落子的位置。
AlphaGo這個做法可說是第一次讓電腦模擬人類神經網路(Neural Network),並用深度學習(Deep Learning)的方法來學習下棋的頂尖招數,這個做法就好像武俠小說中的東方不敗,學會了葵花寶典的武功,成為了天下第一的武林高手。不過進一步的想,東方不敗只是一時的高手,卻不能列為頂尖的武林宗師,原因就是他的武功是學來的而不是自己創的。
AlphaGo的強大也是看人類棋譜深度學習的結果,如果棋譜有錯,它也會出錯,如果人類故意輸入錯誤的棋譜,它就會錯得離譜。而且AlphaGo雖然下棋厲害,但除了下棋,其他都不會,只能算初級的人工智慧不會威脅到一般人的生活。但是,開發AlphaGo的DeepMind團隊,緊接著推出AlphaGo Zero,那可不是同一個技術水平的創作。
原本的AlphaGo事先需要人工輸入大量的資料來學習,就像有些模擬人類神經網路的電腦如果要來判斷圖片中那些是貓那些是狗,需要匯入大量的圖片,並且需要人工事先定義圖片內容再輸入關鍵字,萬一將獅子Key成貓,電腦就埋下Bug種子,而且這種工作量實在太大了,變成了勞力密集工作,讓人感覺這種人工智慧(Artificial Intelligence, AI)有點Low。
AlphaGo Zero採用機器自我學習(Machine Learning)的方式來開發下棋應對方式與布局招數,只要講好遊戲的規則,它可以自我模擬對弈,以電子的速度短時間內自我對戰5,000萬次並學習出最佳的策略,進而開創出人類無法想像的對應招數與布局方式。DeepMind團隊在網路上化名試著與人類60位圍棋高手下棋,AI完勝人類。
到了後來,再拿新的AlphaGo Zero與原本的AlphaGo對奕,結果100:0,打得曾經戰勝人類棋王李世乭的AlphaGo毫無招架之力,到這個時候,AlphaGo Zero的棋奕能力與人類的差距,就好像猴子看不懂人下什麼棋一樣,AlphaGo Zero棋力已經自我演化到人類無法想像的境界了。
AI應用紛問世 監控領域為大宗
以模擬人類神經網路來深度學習(Deep Learning),再加上機器自我學習,這就是進階的AI人工智慧。目前一般市場上所說的AI,大都是指這種有自我學習能力的人工智能,而這樣的技術已經不只是用在下圍棋這件事上。
在2018年Google I/O的盛會上,Google就發表了幾個AI運用的例子,一個有意思的技術是關於如何利用AI在影片中將雜亂的「吵架聲」區分開來。這個技術如果用在通話,那麼不論講話的人在吵雜的工廠內還是喧鬧的演唱會上,雙方都可以聽到對方乾淨的聲音。
如果用在監控領域裡,那麼可以隨意點選錄影檔中講話的人物,不論當時錄影的背環境多麼喧譁嘈雜,都可進一步還原並聽清楚講話的內容,這對警方辦案將會是一個偉大的助力。
另外,Google I/O還展現了利用AI人工智慧技術發展而來的語音助理,在Google所公布的影片中可以看到Google I/O利用新的連續對話(Continue Conversation)與多工回應(Multiple Action)技術,不但能記住你以前講話的內容,還能分析談話的邏輯與可能想表達的意思,就算要理解人類說話中不容易瞭解的複合句也不是問題,甚至Google I/O還能模擬人類說話的語調與心機策略,幫忙使用者與理髮店服務人員談判預約最佳的理髮時間,這個技術對於需要有大量客服人員服務的公司來說,無疑是未來服務模式的最佳選擇。
美國輝達公司(NVIDA)近期也發表了如何利用AI人工智慧,在錄影影片中補上新圖像的技術。只要給它一組24個連貫畫面,就可以在每個畫面間隔之間補上10個新的畫面,原本的24FPS影像,就變成了240FPS影像,在慢動作播放的時候看起來依然流暢。
同樣的AI人工智慧技術也用在低畫質影片的補強上,美國聯邦調查局(FBI)就經常使用AI人工智慧的影像補強技術來分析監視錄影系統所收錄到的影像,從中找到犯罪的線索,進一步協助辦案人員偵破犯罪的罪行。
在日本,東京都的警察機關(東京警視廳)2002年開始導入自動車牌辨識系統(ALPR),這個做法大幅度下降了原本居高不下的竊車問題,而現在最新的AI人工智慧技術,讓原本的ALPR系統除了辨識度更加準確以外,還增加了大數據分析功能,針對偵查鎖定的車輛不但能繪製出過去的行動軌跡,還能預測未來可能行經的路線,對於犯罪的偵防擁有莫大的幫助。
最近火紅的人臉辨識技術(Face Recognition)也是炙手可熱的話題,在很多影片中都可看到中國大陸的公安部門,例用人臉辨識技術抓到隱藏群眾之中的通緝要犯,甚至還可以在群眾之中找出以往帶頭鬧場的問題人員,事先壓制囂張的氣焰。在商業上,利用人臉辨識技術來做門禁管理,甚至是購物記帳、寄物領貨、提錢轉帳等,更是如過江之鯽不勝枚舉。
CPU效能大增驅動AI發展
其實模擬人類神經網路來深度學習的技術並不是新的發明,早在上個世紀,1960年代美國麻省理工學院電子工程與計算機科學教授Marvin Minsky就創立了人工智慧研究室,後來還因為在人工智慧領域的卓越貢獻,獲得電腦界最負盛名的獎項,有「電腦界諾貝爾獎」之稱的圖靈獎(ACM A.M....
有效降低失蹤人口數 臉部辨識應用/需求看漲
在人工智慧的協助下,臉部辨識技術於不同環境中的辨識能力都已大幅提升,包括隨機(Wild)影像,以及使用者為了身分驗證而刻意捕捉的影像。根據Gartner發布的2019年企業IT與消費者十大預測,在人工智慧臉部辨識功能的協助下,2023年成熟市場裡的失蹤人口,將比2018年減少80%。
美國情報高級研究計畫署(IARPA)在2017年的IARPA臉部辨識準確度獎金挑戰賽(FRPC)即指出臉部辨識技術確實有所提升,該競賽首獎由上海新創公司「依圖(YITU Technology)」抱走。依圖的辨識技術與微軟Azure雲端運算平台進行整合,其領先業界的資料庫配對系統可以在3秒內搜尋超過10億筆紀錄。
除了應用於辨識人臉外,非洲國家也已開始試用臉部辨識技術來尋找走失的動物。舉例來說,阿里巴巴正和肯亞共和國的觀光與野生動物部合作,使用臉部辨識技術搭配物聯網(IoT)來保護園區裡瀕臨絕種的大象、犀牛和獅子。
臉部辨識實際應用結果顯示,即使樣本數量大,一對多比對的辨識速度仍然表現突出(低於600微秒),且誤漏和誤認比例都在可以接受的範圍內。不過這樣的測試仍無法立即用於多數應用,因為模型的開發相當耗時,而影像比對也必須先擁有影像辨識集才能做到,這跟「現場」辨識是不一樣的產品架構;但至少對於從影像庫中辨識失蹤的人口依然有用,因此百度等臉部辨識技術供應商,正在開發預測準確度更高的技術。
此外,臉部辨識技術也能拿多年前拍攝的照片進行比對,根據父母長相來評估此人是否就是當年失蹤兒童的可能性;2017年,中國大陸即有個孩子在失蹤27年後,因臉部辨識技術而被尋獲。
臉部識別應用增 比對/分析技術持續革新
我們預測未來幾年將有更多影像辨識被應用於協尋失蹤人口,尤其是尋找那些非自願性失蹤,但因為年幼無知,或年事已高、身心障礙等原因而回不了家的人。不過這項預測並不包括遭逢災禍(例如建築物傾倒和天然災害),或因組織犯罪被害而喪命的失蹤人口。
企業組織將採取更積極的行動來提升臉部比對與分析技術,比如設點讓人成排走過公共及私人攝影機,為的是蒐集資料以利即時辨識人群,並於稍後進行後製處理,或未來在人們失蹤時予以協助。臉部比對和3D臉部成像技術將成為上述弱勢人口(包括兒童、老人或其他殘障人士)資料蒐集裡十分重要的選項,能減少失蹤人口,且毋須針對數量龐大的群眾進行大規模搜尋。
而在未來,當有了更穩健的影像擷取能力、影像圖庫開發、影像分析策略和更高的公眾接受度,臉部辨識技術最重要的突破也將隨之而生。此外,隨著攝影機裝置內部和邊緣人工智慧功能提升,公部門和私人組織將可以預先過濾必要的影像資料,而不必將所有影像串流傳送到雲端才能進行處理。
邊緣運算興起 隱私權挑戰逐漸克服
企業組織可將臉部辨識視為比散布式編碼(Scatter Code)、條碼和RFID標籤更具流動性和可靠的一個步驟,以定位這類系統的同樣方式來管理各個臉部辨識應用的場域,藉此增加可靠的臉部判讀數量。由於演算法和資料會因為年齡、種族和性別而大不相同,所以建議根據所在城市或國家裡失蹤人口的族群特質,來排定演算法和資料收集的優先順序;同時將臉部辨識視為一種生物辨識手段,以深入了解公民和員工在不同環境下的應用洞察。
當然,人們對於臉部辨識涉及的隱私權議題仍存在疑慮。但攝影機技術的發展正使邊緣運算模型的數量增加,進而減少不當蒐集資料的狀況。若法規要求,甚至可以定期清除資料。企業也必須部署邊緣運算方法並強化管理,以便根據在地文化來保障隱私權。不過由於失蹤人口在全球都是個嚴重問題,即使當事人並非因為犯罪事件而失蹤,都會耗費執法資源。臉部辨識只是解決失蹤人口問題這整個大拼圖的一部分,仍需其他如兒童專用智慧手表以及老人用GPS追蹤器等技術共同協助。
(本文作者CK Lu為Gartner資深研究總監;Whit Andrews為Gartner副總裁暨傑出分析師)
台北科技大學機電學院院長專訪 跨領域學程培育AI人才
國立台北科技大學機電學院院長張合指出,執行許多產學計畫是北科大的重要特色,與產業界極深的連結也是該學院的重要優勢。在未來,北科大機電學院也將持續實行更多不同的產學計畫。
其中,人工智慧(AI)與綠能是未來產業的重要發展方向。在開創新產業的路上,北科大也不會缺席。
圖1 國立台北科技大學機電學院院長張合表示,執行許多產學計畫是北科大很大的特色,與產業界的連結極深也是該學院的重要優勢。
AI促跨領域課程興起
要發展人工智慧應用,感測器是其中一項不可或缺的關鍵零組件。張合分享,近期北科大也剛通過一項教育部專案計畫,未來感測器相關的人才培育將會成為北科大未來的重要發展方向。近年來,人工智慧成為熱門議題,無論是在智慧醫療、自動駕駛、智慧製造等等應用場域之中,感測器都是其中的關鍵技術。張合提到,有鑑於此,北科大聯合了機電學院與電資學院跨領域合作,共同投入感測技術的開發;預計將針對車用、生醫、工業應用領域研發感測技術。
由於人工智慧技術近年相當受到重視,北科大也期盼學生能夠盡早對於相關概念有初步的了解。因此,在2018年開始重新招生的北科大五專部課程中,將由一年級下學期就開始安排人工智慧課程,期盼學生能夠在專業課程的起步階段就能夠具備人工智慧的基礎概念。
另外,張合也提到,產業的快速變化使得跨領域整合的學程、課程越來越多;因此,大學部的課程安排必須要盡量減少總學分數或是必修學分數的占比,才能讓學生有更多機會做到跨領域的學習或是培養第二專長。
因此,北科大也提出了「自主學習」方案,也就是說每個學生在四年的就學過程中,將有一次機會能夠提出自身想要學習的題目,並且跨院自主學習,最後由一名學校老師來判定該學生的自學學習計畫是否合格,若是則拿到學分。
風力發電微學程 助新產業起飛
隨著科技的演進,學院的課程內容也會隨之改變;尤其是對於與產業界連結更為密切的科大體系而言更是如此。國家發展的需求影響了教育部的政策,各大專院校的教學計畫便會隨之改變。因此,學院的教學安排隨時都在變動之中。舉例而言,綠色能源的發展便是一個很重要的發展項目,未來將投入大量資源在該領域,有望使綠能成為一個全新的產業鏈。其中,除了太陽能發電之外,風力發電更是另外一塊備受注目的應用領域。
近來台灣政府正積極推動離岸風力發電,未來在彰化、台中離岸將會建置許多風力發電設備。因此,現在北科大已組成跨學院學程以培養相關人才。張合進一步說明,離岸風力發電設備與陸上風力發電設備有相當大的差異。例如,海風會帶來較高的設備腐蝕問題,同時發電機械設備的維修也較為困難;另外,地基的土木知識也與陸上風力發電設備不同。以上種種難題,需要仰賴不同學院的專業,並且跨領域合作。
有鑑於此,目前北科大組成了包含工程學院、電資學院、機電學院的跨學院團隊,接受經濟部檢驗局的訓練。由2019年開始,北科大也將推出「離岸風力發電微學程」,可供未來大學部學生選修。張合認為,未來,在離岸風力發電產業中,北科大的團隊將占有一席之地。對於北科大而言,培育該產業所需人才,也是一項重要的教學方向。
臉部辨識/反詐騙/低電力喚醒三合一 人臉驗證準確率大增
長久以來,人臉驗證一直被認為是電腦視覺領域中最大的挑戰之一,但現已設計出一套準確度高達98.36%的人臉驗證系統,而且是此一概念的即時驗證。本系統選擇的管線設計結合典型與現代的機器學習(深度學習)技巧,支援包括多用戶驗證以及反詐騙階段等關鍵功能,以解決利用照片或影片進行詐騙的關鍵安全議題。本文的目標是針對使用機器學習所產生的問題,以及終端用戶使用平台遭遇的問題,進一步瞭解打造更完整解決方案的程序。也因此,此一使用案例主要在探討如何在多IP上部署機器學習,以提升使用者體驗。為了達成概念驗證,本文使用Arm NN軟體以及已生產的硬體IP,展示一套Always-on的人臉解鎖(人臉驗證)系統。
人臉驗證演算法設計總覽
資訊流的來源,來自耗電量非常低的低解析度照相機檢測到的場景顯著變化,並對隨後階段進行閘控,以保持低電力使用量。當場景變化達到預先定義的水準時,高解析度的RGBD相機會啟動,並且開始針對每一幀(Frame)進行掃瞄,以找出人臉(圖1)。
圖1 當場景變化達到預先定義的水準,為找出人臉,高解析度RGBD相機會開始針對每一幀(Frame)進行掃瞄。
依據RGB資訊,倘若檢測出人臉,相對應的景深影像會傳送至負責辨識真實人臉的詐騙偵測器。在初期便放置反詐騙偵測器的作法,在出現的人臉若是列印的臉或是螢幕影像,得以馬上中止管線執行,並進一步降低電力消耗。
倘若人臉經過驗證後確認是真的,經裁切的RGB人臉會送至特徵點偵測器。追蹤可信之人臉部分,以及更精確的眼睛座標,可以協助我們對準人臉,並讓特徵提取器更易派上用場。在這個階段,我們使用卷積神經網路(Convolutional Neural Network, CNN),替每位用戶將每張臉轉換成一套特徵集。
最後,驗證階段使用一個分類器,它負責透過比對輸入特徵與用戶儲存的特徵來驗證用戶的身份,以決定是否讓用戶進行系統存取。
此一解決方案使用Python做為開發語言達成,每一個資料段都可依據任務的不同,部署於最合適的Arm IP,讓管線更加節能,同時也能保持低推論延遲。
系統的啟動,靠在Arm Cortex-M處理器上處理的低解析度影像達成,可以提供最大的效能與最小的記憶體使用量。為了觸發高解析度相機,人臉偵測與反詐騙階段在Arm Cortex-A CPU上運作,並使用Compute Library運算函式庫支援的低階且高度優化的軟體功能。同樣地,特徵提取神經網路透過Arm NN可以進行高效剖析,然後匯入NEON或GPU,這讓我們針對所有的關鍵階段,都能達成高效的平行執行(圖2)。
圖2 人臉辨識執行步驟
Always-on階段使用一顆Arm Cortex-M處理器執行,處理來自低解析度感測器的輸入訊號,並在偵測到場景變化時,把系統喚醒;此一場景變化的偵測,會對在Cortex-A73上運行的RGBD相機資料處理,進行閘控。
更高品質的人臉偵測可移除偽陽性,且詐騙偵測使用深度資訊,確保人臉不會只是一張照片。人臉經偵測後,資料將饋入身份辨識階段,其為設計用來針對每個身份擷取獨特特徵的先進神經網路。驗證階段確認人臉是裝置中已登錄的人臉之一,並確認用戶的身份;而使用Arm NN,自然地把各階段移至正確的IP。我們不妨仔細檢視每個階段的功能,以及它們對整個解決方案有何貢獻。
喚醒階段
大多數現有的喚醒方式,都需要與裝置進行實體互動。為了讓行動使用更加無縫順暢,此一方式可以用其它感測器的低電力分析加以取代,以偵測用戶是否有意開始使用裝置。
運動感測器是選項之一,但是當裝置放在口袋裡或袋子中,可能會因為錯誤的喚醒而產生電力消耗的風險。因此,本文選擇使用低解析度相機來偵測顯著的場景變化,原因是手機上鎖後的前置相機,在使用前的一刻,通常只會看到一片黑暗,或是靜止不動的天花板。
使用低解析度感測器來進行影像擷取,並用Cortex-M處理器進行影像分析,可以讓喚醒階段偵測出有趣的特徵,同時在Always-on耗電水平內進行運作。這些特徵可以靠執行背景減法,並依背景擷取強度值的直方圖差異,輕易地進行辨識。此一階段設計用意為低延遲,並藉由使用低成本的Cortex-M處理器,來觸發解析度較高的光學感測器,並開啟人臉檢測階段。
人臉檢測
針對此一階段,我們選擇執行經過訓練的支援向量機(Support Vector Machine, SVM)分類器,並用梯度直方圖(Histogram of Gradients, HOG)當成特徵提取器。與另一種Viola&Jones方法相比,這種方式經證實可產生較少的偽陽性偵測,同時仍可在Cortex-A上進行即時運作。
每張梯度直方圖都是從使用16×16像素的資料段所擷取的8×8像素儲存格,且資料段的間隔為8個像素。每個儲存格的直方圖大小,可以支稱9個bin(0~180度),而且最後的特徵向量在每個視窗大小內,將可支撐數個序連特徵。
最後,每個視窗的特徵資訊會傳送至SVM分類器,而它也將檢測人臉是否出現在此一視窗內。分類器經過LFW影像訓練過,而且藉由提供可以接受數量的真實反例,如此一來便可證實已經能顯著減少偽陽性偵測(圖3)。
圖3 執行經過訓練的SVM分類器可顯著減少偽陽性偵測
此一方式在使用NEON的Compute Library已經主要執行,而這也是降低這個階段整體延遲的一個好選項。正常來說,特徵擷取會進行多次運行,每一次都會讀取視窗內相對應的強度值,ACL則以更有效率的方式處理,透過預先定義HOG參數,每個儲存格都會計算一次特徵向量,並儲存在裝置上。
隨後,大小不同的數個視窗,每個都可以用來讀取相對應的記憶資料段,而且藉由平行運行多個SVM分類器,可以更快速地預測人臉座標,要辦到這點,需要訓練數個SVM分類器,且每個分類器都對應特定的特徵長度。
當然,要訓練分類器,必須相對應地調整訓練資料的大小,原因是每個SVM(總共有六個)是針對特定的特徵向量長度接受訓練,且視視窗的大小而定。不過,由於不必再重覆從像素值擷取特徵,使用上述的方法可降低運行時間的延遲。此外,依據輸入影像的解析度選擇所要的視窗大小,可以免除整合金字塔表示法的需要。最後一步我們則透過非極大值的抑制,來排除多重檢測。
拿ACL人臉偵測的延遲,與針對256×256影像以Dlib在4個Arm Cortex-A73、時脈調為2.36Ghz的處理器運作兩相比較,結果只花了一半的時間,就可以達成類似的結果(ACL:15毫秒對比Dlib:30毫秒)。最後,在ACL人臉監測執行的前端,建立了Python綁定(Binding),讓它可以輕鬆與管線進行整合。
反詐騙步驟極為關鍵
在把人臉影像匯入生物特徵提取器之前,反詐騙是極為重要的安全步驟。在這個階段,我們把應付兩個關鍵安全議題的詐騙偵測資料段整合進去;利用照片或影片詐騙用戶身份。
四個最受歡迎的詐騙檢測演算法類別,分別是運動分析、紋理分析、影像品質分析,以及如紅外線感測器等主動方式。不過,由於此次使用的是RGBD輸入感測器,於是採取使用深度資訊的方式來辨識真臉與假臉。帶出反詐騙模型最大的挑戰,在於缺乏公共資料庫,因此我們搜集了自有的真臉與假臉反詐騙資料庫,並對系統進行訓練。
真實的人臉利用各種變數進行擷取,如不同的採光環境與姿勢,以及戴上或不戴眼鏡的情況;假臉則從各種不同的顯示監視器與照片進行擷取,以模擬2D的人臉詐騙攻擊。
為了辨識出詐騙攻擊,透過RGB偵測出的人臉座標會從人臉偵測資料段,饋入反詐騙資料段。依據這些座標,我們裁切從深度空間(2D距離的矩陣)偵測到的人臉,並跟之前一樣,利用同樣的HOG參數提取特徵。
最後,已經在我們客製化資料集中接受訓練的SVM分類器,會利用區別真實與虛假的人臉,防止非法的系統存取。倘若人臉被判定為假臉,我們會拒絕該用戶,並避免管線剩下的運行;如果判定是真臉,人臉會饋入2D仿射轉型資料段。針對反詐騙階段,再次執行HOG與SVM ACL,因為此一解決方案提供加速運行與結果(圖4)。
圖4 反詐騙是執行人臉辨識十分重要的步驟。
對準人臉
倘若用來訓練與測試的臉部影像修補,可以對準成常見的角度,人臉辨識與驗證系統的效果會更好。此一對準動作,可以讓生物特徵系統專注在人臉的外表,而不用特別應付不同的姿勢。
雖然我們預期用戶在人臉驗證過程中會直視相機,但藉由人臉對準的變換,我們提升了生物特徵提取器的堅固性,並排除了資料集內的姿勢變異。在對準人臉的作業中,深度學習技術顯現出大有可為的結果。不過,我們最後選擇了一個有效且運算成本較低的解決方案,以將管線的延遲降至最低;先用特徵點偵測器來提取特徵點,隨後依據這些點,用2D仿射變換(Affine Transformation)對準輸入的人臉。
在無限制的環境下,要把人臉特徵點局部化是件極具挑戰的任務,原因是它會出現許多令人混淆的因素,如姿勢、堵塞、表情與照明;特別是這些因素會對人臉的外表以及人臉局部特徵狀態,產生顯著的影響。
在我們的情況中,針對五個特徵點進行追蹤,並依集成迴歸樹(Ensemble of...
3D感測/機器視覺強強聯手 AI升級智慧製造商機無限
AI人工智慧讓智慧製造能力再上一層樓,而應用已久的機器視覺,亦從成熟的光學檢測AOI,蛻變為內含深度學習(Deep Learning)技術的電腦視覺,搖身一變成為智慧製造的核心技術,影像與視訊內容的自動擷取、處理、分析與應用更加迅速、普遍與成熟。這樣的轉變不僅展現在生產效率的提升上,更可以進一步精簡人力成本,未來AI系統甚至可以針對機台的問題進行自我檢測,分析問題與成因,然而這僅僅是十八般武藝的開端。
近來,許多新興技術發展並與機器視覺結合,進一步擴大了其功能與應用範疇,3D感測技術包括飛時測距(Time of Flight, ToF)、立體雙目視覺(Stereo Vision)、結構光(Structured Light)等技術可以建立三維感測資訊,尤其測距應用的延伸,將使電腦視覺的功力不斷提升,本活動介紹機器視覺技術架構與應用最新動態,加上多個感測技術的加持,並剖析其與AI結合的發展與應用趨勢。
機器視覺助智慧製造一臂之力
而製造業從工業4.0口號被打響以來,製造系統從自動化進入智慧化的另一個全新的發展境界,機器視覺(Machine Vision)/電腦視覺(Computer Vision)就是達成此目標非常關鍵的技術。倢恩科技研發部經理邱威堯(圖1)提到,導入機器視覺可以使傳統製造業產線的生產方法更具彈性與可變性,並改善作業人員工作環境,遠離危險惡劣的工作流程。使用機器視覺的生產線,讓產品從人工檢測進步到自動品質管理,可增進品管重現性/一致性,以達成高度品質管制,降低人員因疲勞或情緒不佳誤判所造成的損失,同時讓檢測數據數值化,自動產生統計報表以便於管理與決策分析。
圖1 倢恩科技研發部經理邱威堯提到,導入機器視覺可以使傳統製造業產線的生產方法更具彈性與可變性,並改善作業人員工作環境。
機器視覺的基本要點包括:檢測(Inspection)、物件識別(Object Recognition)、量測(Gauging)、機器導引與定位(Machine Guiding and Positioning)。
檢測Inspection
利用機器視覺技術自動檢驗製程中工業產品之瑕疵,例如印刷電路板上的線路是否短路、斷路,半導體晶圓之表面缺陷及LCD面板之缺陷等。
物件識別Object Recognition
用於確認物件的身分,例如車牌辨識、條碼辨識、IC元件之光學字元辨識(OCR)及鍵盤檢視、人臉辨識、指紋辨識、瑕疵分類等。
量測Gauging
以機器視覺技術進行非接觸式的量測,例如工件之尺寸、夾角、真圓度及印刷電路板之線寬等。
機器導引與定位Machine Guiding and Positioning
利用機器視覺引導自動化機器之路徑,例如引導銲接機器人之銲道,無人搬運車之行進軌跡;亦可用於決定目標物位置,如SMT、PCB自動裝配作業的定位與機器人的行走路徑等。
機器視覺影像處理要點
進入作業程序後,機器視覺系統針對擷取到的影像進行處理則是另外一個重點,邱威堯進一步說明,影像強化、影像分割、影像編碼、影像還原等為主要的技術。影像強化是使處理過的影像比原始影像更適合於某一特殊應用,方式包括空間域(Spatial Domain)與頻率域(Frequency Domain)。影像分割則是凸顯出影像中感興趣的部分。
影像編碼就是使用較少的位元來顯示一幅影像,壓縮是最常見的方法。影像還原則是改善或重建一幅遭到破壞的影像,邱威堯說,影像還原技術通常需要大量運算時間,且還原後的效果不見得可以接受,建議由取像環境、設備與技術來改善影像的品質。
機器視覺硬體選擇無唯一解
在機器視覺硬體部分,主要由打光、鏡頭與相機組成。邱威堯指出,打光是機器視覺中非常困難的一部分,需要許多直覺與實驗,而打光技術也無通則,但對於特定應用場合已有經驗可循,而打光的方法是根據待測物的光學特性來決定,打光的目的則包括,取得與強化待測物中有興趣之特徵,使前景與背景明顯不同,強化訊噪比,以得到更高品質的影像,凍結移動中物體的運動並去除鏡反射(Specular Refection)等。
而打光的方式則分為正向打光、背向打光與結構打光。並可再進一步細分為擴散式正向打光、直向式正向打光、低角度斜向打光、同軸打光、擴散式背向打光、遮背式背向打光等多種,端視需要的效果而定。光源部分則以人工光源最常用,種類包括白熾燈的鎢絲燈泡、鹵素燈;放電燈的螢光燈、水銀燈、高壓鈉氣燈、複金屬燈、氙氣燈;固態光源的LED與固體雷射。其中,近年在實務應用上LED燈儼然已是主流。
另一個重點就是鏡頭,邱威堯強調,這部分的選擇同樣沒有最佳解,端視需求與使用者掌握的資源而定,選擇的要素包括視野、焦距、工作距離、相機底座、相機格式(感光元件尺寸)、景深、光圈值、相機型式等。以景深為例,其代表聚焦清晰的範圍,長景深表示聚焦清楚範圍大,短景深表示聚焦清楚範圍小,一般景深可以透過縮小鏡頭光圈來增加,但是照明的亮度也要相對提升,原則上要避免出現短景深的情況,以追求長景深為目標。
3D感測加值機器視覺
3D感測技術並不是全新的技術,由於iPhone X的人臉辨識解鎖應用,讓市場大為驚艷,帶動的發展熱潮逐漸滲透到不同領域。目前主要技術為立體雙目視覺、結構光與飛時測距,艾邁斯半導體(ams)資深應用工程師湯治邦(圖2)表示,這三個技術都需要搭配光源,現階段主流光源是垂直腔體表面雷射(VCSEL),並使用不可見的紅外光,波長850nm與940nm為主,因有極少部分人可看見850nm的紅外光,所以近年940nm使用比例逐漸提升。
圖2 艾邁斯半導體資深應用工程師湯治邦表示,飛時測距、立體雙目視覺、結構光技術特性有些差異,造成不同應用與需求各有優勢。
發光源的部分,除了熱門的VCSEL之外,LED與邊射型雷射(Edge Emitters Laser, EEL)都是常見的光源,以技術特性來深入比較,湯治邦指出,VCSEL雷射光的光線集中,LED則呈現散射方式,因此VCSEL波長範圍穩定,可產生波長最精準的光線,操作溫度最高可達200℃,溫度特性比LED與EEL優異,製造成本與半導體製程的簡易度也有相對優勢,是該技術受到高度注目的原因。
此外,主流的三個3D感測技術,技術特性有些許差異,造成不同應用與需求下各有優勢,立體雙目是由兩個攝影機分別擷取影像,理論與人眼相似,透過三角函數可以測知物體的深度,與其他兩個技術相較由於感測元件技術成熟成本較低,但模組體積較大、耗電量較高,也易受環境變化影響,如天候昏暗就會影響感測品質與準確性。
因為iPhone...