語音辨識
生產製程易卡關 MEMS麥克風挑戰大
人工智慧(AI)語音辨識發展起飛,進一步帶動MEMS麥克風的需求,然而在這波需求的背後,不僅是MEMS麥克風本身的規格需要提升,就連生產製程的良率要求,也成為廠商關注的焦點。
鑫創科技市場行銷部經理曾建統表示,AI語音發展趨勢規格目前呈現兩極化的發展,針對較於成熟的消費型應用產品(如手機、筆電與耳機),現有的MEMS麥克風性能皆已可滿足其應用需求,但另一方面,對於MEMS麥克風的靈敏度、收音與抗噪有更高要求的AI應用(如智慧音箱類型產品),則對MEMS麥克風技術規格要求更嚴苛。換言之,面對這兩種截然不同的應用,MEMS麥克風除了技術規格有提升的必要,同時也有在既有產品與技術規格下,提升產品良率的技術考量須同時並進。
曾建統談到,該公司看到許多語音應用產品,在生產過程中的不良率問題經常在MEMS麥克風元件的節點中被突顯出來。原因在於,相較於其他類型的感測元件,MEMS麥克風的元件特性更為脆弱,不適合用水洗或吹風的方式進行處理。不過在要求產品整體的輕薄短小與高性能的需求,開發商追求更高製程,而高製程的生產過程,對於MEMS麥克風本身的元件特性經常背道而馳。再者,受限於MEMS麥克風本身價格低廉的因素,生產者是否希望透過製程改進MEMS的良率問題,也是一個須考量的因素。
隨著消費型產品在輕、薄、短小的要求下,開發商需要透過製程的改善,進而滿足產品機構上的要求,也基於此,PCB板上的MEMS麥克風,經常成為容易出錯的問題點。舉例說明,水洗、噴發氣體與壓力變化都會對麥克風良率產生影響,然而有些新製程為了清除感測器上的雜質,採用水洗的製程做清洗的動作;此外,也有些製程於真空環境中生產,當生產完畢時,產品就會進入破真空的階段,過程中會產生一些壓力變化,進而影響麥克風的良率。
不僅如此,由於產品對於靜電放電(ESD)要求越來越嚴苛,因此系統產品在測試ESD過程中,需要拿靜電槍對各個接口發射靜電測試,而MEMS麥克風元件又經常擺放於開口處,也容易使得MEMS麥克風元件受到影響。
整體而言,曾建統分析,ESD的防護是系統層面的問題,需要透過客戶生產、製程上的協助予以克服。但從另外一個層面來看,上述提到的系統產品開發問題,單純從表面上看到的是MEMS麥克風造成良率的影響,但這背後某種程度也是MEMS麥克風廠商所面臨的一大瓶頸。
曾建統表示,目前台灣IC設計商尚未在MEMS麥克風市場中受到Tire 1開發廠關注或合作的主要原因在於,即便台灣MEMS麥克風廠商可以滿足開發商規格上的要求,但在生產良率的要求,比起一般國際大廠則較為不足,故如何協助開發商提升良率問題,將成為未來拿下AI語音龐大商機關鍵要素。
實現高效音訊訊號擷取 MEMS麥克風效能更上層樓
相較於傳統駐極體電容式麥克風(ECM),MEMS麥克風提供許多更好的優點。在效能等級相同的情況下,MEMS麥克風體積較小,來自多個麥克風的音訊訊號放大與相位也可相互匹配。此外,MEMS技術在抗高溫能力方面較為優異,而且適用於回流焊,因此可使用自動化電路板組裝。也因此,許多半導體業者紛紛推出MEMS麥克風解決方案,例如英飛凌便於近期發布XENSIV MEMS麥克風--IM69D130(圖1),以提供精確的語音辨識。
圖1 半導體業者推出新一代MEMS麥克風,克服現有音訊訊號鏈的限制。
高效能麥克風降低雜訊
麥克風做為聲音感測器,可將聲壓波轉換為電子訊號。然而,並非所有麥克風都具有同等的能力,而且有多項參數決定麥克風是否適用於特定應用。
麥克風輸出訊號中的電子雜訊,並不只是來自於所須輸入訊號的所有訊號有關。雜訊可能存在於環境中或來自麥克風本身,而且雜訊位準越高,音訊訊號的品質越低。各種參數或規格定義了麥克風的雜訊。一方面是自有雜訊,這是在沒有聲音訊號時,麥克風本身產生的雜訊,以Vrms、dBV或dBFS測量。等效輸入雜訊是對應於麥克風輸出處電子雜訊位準的虛數聲學雜訊位準,以dB聲壓水準(dB SPL)表示。訊噪比(SNR)是一個重要的標準。SNR值以dB表示,是相對於預期或期望輸入訊號的麥克風自有雜訊量度(圖2)。
圖2 MEMS麥克風在高聲壓水準的環境下,亦能提供無失真的音訊訊號。
其他重要的麥克風品質特性還有失真,如總諧波失真(THD)及聲學過載點(AOP)。實際上,如同所有訊號轉換器,麥克風也是非線性的,亦即會產生一定的失真。在失真的情況下,額外的訊號為諧波(通常是2至5次諧波)。THD是這些諧波中包含的能量與基頻能量的比率,以百分比表示。基本上,AOP定義了THD超過10%的點。但是,在要求較高的應用中,有時也將AOP指定為THD超過1%的點。
最佳化演算法降低訊號干擾/失真
對於執行演算法的系統而言,擷取聲音訊號的方式與人耳感知聲音的方式不同,因此聲音品質的目標也是不同的。只要針對所使用的演算法進行最佳化,訊號就不一定要聽起來很自然,重要的是訊號不受干擾、失真及雜訊影響,各種應用皆然。
自動語音辨識是將語音訊號自動轉換為書面文字的程序,目前的準確度約為95%,已非常接近人類水準;到目前為止,此值只有在環境條件非常有利的實驗室中才能實現。在開發語音控制系統時,基本概念應始終聚焦於可靠性以及使用者的易用性。為實現此目標,系統設計人員必須考量現場的實際應用,例如使用者與麥克風之間可能的距離,以及預期的背景噪音量。唯有如此才能設計出可實現最佳效能的系統。
實際上,特別是當喇叭不在附近時,語音控制通常在聲學方面有相當大的困難,例如背景噪音、殘響、回音消除及麥克風位置等。因此,僅擁有良好的語音辨識軟體是不夠的。系統的每個組件皆應提供最佳效能,以避免發生品質損失。麥克風的任務是為語音辨識系統提供最佳的輸入訊號,而高品質的輸入訊號有助於分析傳入聲音的語音內容。關鍵參數包括噪音、失真、頻率響應及相位。
在嘈雜的環境中,如果使用的麥克風具有高線性度以盡可能減少失真,則可以大幅改善語音辨識。高AOP有助於大幅減少失真並改善噪音與回音的抑制。有時語音訊號本身不夠響亮,並且還有其他聲音造成干擾。例如,當喇叭靠近語音啟動終端裝置的麥克風,或是當數位語音助理正在播放響亮的音樂或語音資訊時。
提高訊噪比為降噪主要步驟
與語音訊號源的距離越大,饋送至演算法之訊號的訊噪比就越低。因此,如果預期的偵測距離較大,麥克風的訊噪比就應該更高。
如果可以從訊號中遮蔽掉不需要的聲音,即可改善音訊與視訊訊號的偵測以及對話的品質。其目標是提高訊噪比,在此情況下即為所需要的音訊與不需要的環境噪音之間的比率。透過使用多個麥克風與適當的算法,可實現降噪與方向特性。
定向麥克風陣列(例如使用波束成形演算法)可增加麥克風在所需方向的靈敏度,同時放大所需的聲音來源。有一種複雜的抑制噪音方法是「盲源分離」演算法,無論方向、距離及來源位置為何,皆可抑制噪音。所有上述噪音抑制技術皆可獲益於所接收訊號的準確性與品質。因此,麥克風應具有最大訊噪比、低失真、線性頻率響應(可改善相位響應)及低波群延遲。
半導體商力推高效能MEMS麥克風
上述提到,MEMS麥克風需求增加,半導體業者也相繼推出解決方案,以英飛凌為例,該公司旗下的XENSIV MEMS麥克風「IM69D130」訊噪比為69dB,專為需要低自有雜訊、高動態範圍、低失真及高AOP的應用而設計。
此款麥克風結合英飛凌的雙背板技術,此技術以錄音電容式麥克風所使用的小型化、對稱式麥克風設計為基礎,可在105dB的動態範圍內實現輸出訊號的高線性度。麥克風的噪音底部為25dB(69dB訊噪比),即使聲壓位準為128dB SPL(130dB SPL時失真率為10%),失真率也不會超過1%。這意味著即使喇叭正在播放音樂,也可以無失真地偵測語音命令。線性頻率響應(28Hz低頻衰減)與嚴格的製造公差實現麥克風的緊密相位匹配(圖3)。此麥克風採用4mm×3mm×1.2mm封裝。
圖3 IM69D130典型的相位響應
此外,該產品憑藉其靈敏度(±1dB)與相位匹配(1kHz時為±2O),可支援極為精確的音訊波束成形,以提供創新的高效能音訊與語音演算法(圖4)。由於其具備數位介面,因此無需類比組件,如此也降低了保護電路板免受高頻雜訊影響的成本,而且多麥克風應用所需的資料線也會更少。同時,數位麥克風ASIC包含極低雜訊前置放大器與高效能Sigma-Delta AD轉換器(1kHz時僅6μs延遲)。可選擇不同的功率模式以符合特定的電流消耗要求。每個IM69D130麥克風皆經過微調,因此靈敏度的公差非常小(±1dB)。
圖4 IM69D130方塊圖
簡而言之,該產品結合的創新演算法易於處理高品質音訊原始資料訊號,可處理要求嚴苛的語音辨識場景,例如遠場偵測及擷取細微的語音;MEMS麥克風的效能提升,不再是音訊訊號鏈的限制因素,因而能支援強大的語音演算法。
(本文作者為英飛凌科技公司MEMS麥克風部門行銷經理)
智慧家庭喇叭/安防應用夯 AI導入眾望所歸
Ovum首席分析師Michael Philpot認為,由於中國、南韓等亞洲國家人們對於新科技的接受度較高,因此亞洲的智慧喇叭市占成長將更為快速。Ovum研究數據便指出,比起2017年,在2018年中國區域市場中導入智慧喇吧的家庭已提升了458%之多,成長相當快速。
Philpot強調,影響智慧喇叭未來發展的重要因素有二:其一是語音辨識技術的進步速度,其二為關鍵應用的出現。在語音辨識技術方面,目前不只是在中文市場面臨困難,其實目前各語言的語音辨識系統都尚未成熟。另外,也必須要有更多實用的智慧喇叭應用出現,才能使得該設備融入日常生活之中。Ovum便對於已擁有智慧喇叭的使用者進行調查,發現使用者最大的困擾在於並不清楚智慧喇叭能為自己帶來的好處為何。以上兩大因素皆會嚴重影響消費者體驗,而不夠好的使用體驗,很有可能進一步影響未來的設備市占成長幅度。
因此,短時間內智慧安防將會是成長更快的應用。智慧安防所涵蓋的領域非常廣泛,其中包含智慧門鎖、保全系統等等。Philpot指出,居家安全是智慧家庭中最基本的需求,而且使用者非常清楚相關應用設備會帶來的好處,因此智慧安防目前已經是智慧家庭領域中市占最大的應用,未來也將會持續成長。
Philpot認為,在未來智慧家庭的發展不僅是要蒐集住家內的資訊,更要透過人工智慧平台整合交通狀況、使用者的地理位置等等居家外部的資訊,才能實現智慧家庭的理想情境。目前,透過手機遠端控制家電已是智慧家庭的基本功能,然而理想情境應該是人工智慧平台主動整合各種資訊後,自動判別使用者狀態,進而將各智慧家庭設備調節至相對應的設定。
因此,如Google、蘋果(Apple)等國際大廠無不積極投入人工智慧平台的開發。然而,Philpot進一步指出,由於建置人工智慧平台的技術相當困難,目前看來依然需要5年以上時間才有可能達到智慧家庭的理想使用情境。
智慧家庭喇叭/安防應用夯 AI導入眾望所歸
智慧家庭各類應用皆受到大廠與消費者關注,其中智慧喇叭在全球各個區域市場的滲透率都在逐漸提升中,尤其在亞洲區域更有明顯提升,在過去一年已成長4倍以上。智慧門鎖、保全系統等智慧安防應用則由於其應用功能明確,會有更為顯著的漲幅。在未來,各智慧家電還必須結合人工智慧(AI)平台,實現更智慧的居家生活,然而由於技術上的局限,預計尚需5年才能實現。
Ovum首席分析師Michael Philpot認為,由於中國、南韓等亞洲國家人們對於新科技的接受度較高,因此亞洲的智慧喇叭市占成長將更為快速。Ovum研究數據便指出,比起2017年,在2018年中國區域市場中導入智慧喇吧的家庭已提升了458%之多,成長相當快速。
Philpot強調,影響智慧喇叭未來發展的重要因素有二:其一是語音辨識技術的進步速度,其二為關鍵應用的出現。在語音辨識技術方面,目前不只是在中文市場面臨困難,其實目前各語言的語音辨識系統都尚未成熟。另外,也必須要有更多實用的智慧喇叭應用出現,才能使得該設備融入日常生活之中。Ovum便對於已擁有智慧喇叭的使用者進行調查,發現使用者最大的困擾在於並不清楚智慧喇叭能為自己帶來的好處為何。以上兩大因素皆會嚴重影響消費者體驗,而不夠好的使用體驗,很有可能進一步影響未來的設備市占成長幅度。
因此,短時間內智慧安防將會是成長更快的應用。智慧安防所涵蓋的領域非常廣泛,其中包含智慧門鎖、保全系統等等。Philpot指出,居家安全是智慧家庭中最基本的需求,而且使用者非常清楚相關應用設備會帶來的好處,因此智慧安防目前已經是智慧家庭領域中市占最大的應用,未來也將會持續成長。
Philpot認為,在未來智慧家庭的發展不僅是要蒐集住家內的資訊,更要透過人工智慧平台整合交通狀況、使用者的地理位置等等居家外部的資訊,才能實現智慧家庭的理想情境。目前,透過手機遠端控制家電已是智慧家庭的基本功能,然而理想情境應該是人工智慧平台主動整合各種資訊後,自動判別使用者狀態,進而將各智慧家庭設備調節至相對應的設定。
因此,如Google、蘋果(Apple)等國際大廠無不積極投入人工智慧平台的開發。然而,Philpot進一步指出,由於建置人工智慧平台的技術相當困難,目前看來依然需要5年以上時間才有可能達到智慧家庭的理想使用情境。