MEMS麥克風
智慧語音應用超展開 MEMS麥克風AOP不漏接
上述AOP是評估MEMS麥克風在高聲壓下的訊號仿真程度指標,AOP越高代表在麥克風訊號可以延伸到更大的聲壓才會產生失真。我們以一AOP 132dBSPL的麥克風為例,當麥克風收到的聲壓較大時,雖未達到麥克風振膜機械應力的極限,電路設計會限制輸出訊號振幅,將某個數值以上的部分箝制住而產生失真,如圖1、圖2所示,此時在頻譜上數倍頻的位置會出現諧波,如圖3、圖4所示。
圖1 麥克風對1KHz 94dBSPL的時域輸出
圖2 麥克風對1KHz 132dBSPL的時域輸出
圖3 麥克風對1KHz 94dBSPL的頻域輸出
圖4 麥克風對1KHz 132dBSPL的頻域輸出
當時域上波形尖端被截掉的占比越大,則頻域上的諧波能量會增強,總諧波失真(Total Harmonic Distortion, THD)也隨之上升,一般MEMS麥克風規格定義THD到達10%此時的聲壓值為AOP。
以下從幾個AOP上必須特別注重的應用角度來說明。
反饋式主動降噪耳機
反饋式主動降噪耳機(Feedback ANC)的麥克風位於揚聲器與耳膜之間的位置,能處理耳邊的實際噪音,且會對麥克風周圍設計出靜域(Quiet Zone)的區塊,因此麥克風要離耳膜越近,降噪效果越佳;理論上,如果能接收到耳膜的訊號,才有機會做出完美的反饋結構。
麥克風距離揚聲器近最大的好處是,系統增益比較高,相對而言比較容易提高麥克風的降噪率,但壞處則是麥克風飽和的風險也比較高。為了避免麥克風飽和,建議選用AOP超過130dB的麥克風,若AOP不足會在高頻產生諧振,觸碰到原本設計放置在高頻的極點或零點,就可能會造成系統響應發散。
一般耳機揚聲器到耳朵振膜的長度約2.54cm,此耳機含音腔響應的共振點在4KHz的位置,同時考慮使用者在配戴耳機的過程中腔體持續變化,共振點會產生頻率飄移的現象,控制器設計上必須將3KHz以上的響應要全部壓掉,因此在濾波器的設計會刻意的安排一個零點在此位置,同時因為濾波器階數的限制,高頻可能也有極點的存在,必須避免諧振產生在此造成系統不穩定,會造成使用者會明顯的不適。
電視與智慧音箱
電視或是智慧音箱都屬於近年快速發展的聲控產品,同時具備播放聲音與語音控制的多麥克風裝置,並對麥克風陣列的收音進行「回音消除(Echo Cancellation)」與「指向性收音」兩項功能。
首先,在多麥克風陣列上,需針對麥克風訊號個別進行回音消除的運算,將擴音器播出後再被麥克風回收的部分音訊進行抑制,以解析出剩餘的環境聲音。由於擴音器所播放的音樂音量有可能被使用者調大,同時麥克風與擴音器的距離較使用者近,麥克風所收到的擴音器音量遠大於使用者聽到的實際音量。若麥克風因訊號強度過大而飽和,進而產生諧振,則回音消除演算法接收到的頻譜除了播出的聲音頻譜外同時包含了諧波,這種情形會造成系統干擾使回音消除功能無法正常發揮功用,甚至會造成反效果。
隨後,DSP再依據不同麥克風收到的訊號時間與音量差異,判斷聲音來源方向再進行增益修正,將目標範圍以外的聲音進行調降,以達到指向性收音的目的。由於大音壓產生諧波是因電路限制產生,並非因聲音方向差異產生,因此諧波的存在會造成指向性收音演算法的誤判,因此降低系統SNR,進而影響辨識率。
車載裝置
語音控制車載裝置,在開車的時候駕駛者雙手必須操控車輛,能以語音操作車載裝置的各項功能具有強勁的市場需求。由於麥克風的收音區域與車載擴音器的放音區域是同一個空間無法隔離,當麥克風與車載擴音器相對位置隨不同車型而改變,車載擴音器發出的聲音通過不同途徑返回到麥克風,造成不同波形與不同相位的聲音疊加後形成結構複雜的聲音波形,當這種反饋滿足震盪時將產生嘯叫,並且可能發生在多個頻率點。
系統需要嘯叫消除(Howling Cancellation)功能,來消除擴音器發出過大音量到麥克風形成正回授而造成嘯叫聲。麥克風必須避免在車用的吵雜環境上先發生飽和,進而提高嘯叫發生機會。
手機
往年有手機廠標榜在搖滾演唱會的前排觀眾可利用手機錄製高還原度的音質,或是戶外使用場合,要避免低頻風切的壓力造成麥克風飽和,麥克風單體AOP需要由傳統的120dBSPL提高為130dBSPL。
近年全螢幕手機興起,在機構設計上麥克風被迫放置在與揚聲器接近的位置,其次,有些機能手機標榜機構防水,會為了防水機構的設計盡量縮減外殼機構的開孔數量,在此要求下,會需要將麥克風與揚聲器放置在距離相當近的位置,為了避免收音失真影響語音辨識等功能,需要高AOP麥克風。
(本文作者為鑫創科技技術經理)
生產製程易卡關 MEMS麥克風挑戰大
人工智慧(AI)語音辨識發展起飛,進一步帶動MEMS麥克風的需求,然而在這波需求的背後,不僅是MEMS麥克風本身的規格需要提升,就連生產製程的良率要求,也成為廠商關注的焦點。
鑫創科技市場行銷部經理曾建統表示,AI語音發展趨勢規格目前呈現兩極化的發展,針對較於成熟的消費型應用產品(如手機、筆電與耳機),現有的MEMS麥克風性能皆已可滿足其應用需求,但另一方面,對於MEMS麥克風的靈敏度、收音與抗噪有更高要求的AI應用(如智慧音箱類型產品),則對MEMS麥克風技術規格要求更嚴苛。換言之,面對這兩種截然不同的應用,MEMS麥克風除了技術規格有提升的必要,同時也有在既有產品與技術規格下,提升產品良率的技術考量須同時並進。
曾建統談到,該公司看到許多語音應用產品,在生產過程中的不良率問題經常在MEMS麥克風元件的節點中被突顯出來。原因在於,相較於其他類型的感測元件,MEMS麥克風的元件特性更為脆弱,不適合用水洗或吹風的方式進行處理。不過在要求產品整體的輕薄短小與高性能的需求,開發商追求更高製程,而高製程的生產過程,對於MEMS麥克風本身的元件特性經常背道而馳。再者,受限於MEMS麥克風本身價格低廉的因素,生產者是否希望透過製程改進MEMS的良率問題,也是一個須考量的因素。
隨著消費型產品在輕、薄、短小的要求下,開發商需要透過製程的改善,進而滿足產品機構上的要求,也基於此,PCB板上的MEMS麥克風,經常成為容易出錯的問題點。舉例說明,水洗、噴發氣體與壓力變化都會對麥克風良率產生影響,然而有些新製程為了清除感測器上的雜質,採用水洗的製程做清洗的動作;此外,也有些製程於真空環境中生產,當生產完畢時,產品就會進入破真空的階段,過程中會產生一些壓力變化,進而影響麥克風的良率。
不僅如此,由於產品對於靜電放電(ESD)要求越來越嚴苛,因此系統產品在測試ESD過程中,需要拿靜電槍對各個接口發射靜電測試,而MEMS麥克風元件又經常擺放於開口處,也容易使得MEMS麥克風元件受到影響。
整體而言,曾建統分析,ESD的防護是系統層面的問題,需要透過客戶生產、製程上的協助予以克服。但從另外一個層面來看,上述提到的系統產品開發問題,單純從表面上看到的是MEMS麥克風造成良率的影響,但這背後某種程度也是MEMS麥克風廠商所面臨的一大瓶頸。
曾建統表示,目前台灣IC設計商尚未在MEMS麥克風市場中受到Tire 1開發廠關注或合作的主要原因在於,即便台灣MEMS麥克風廠商可以滿足開發商規格上的要求,但在生產良率的要求,比起一般國際大廠則較為不足,故如何協助開發商提升良率問題,將成為未來拿下AI語音龐大商機關鍵要素。
麥克風市場競爭烈 找出差異化是關鍵
語音應用快速攀升,MEMS麥克風的重要性也日愈俱增,各大MEMS麥克風供應商也加緊提升麥克風效能;而在市場競爭日趨激烈之下,如何為MEMS麥克風找出更佳的「賣點」,成為供應商的一大挑戰。對此,意法半導體(ST)便採用SiP封裝的方式,將麥克風與其他感測器相整合,除了因應更多創新應用之外,還可降低終端產品業者的開發時間和複雜度。
意法半導體亞太區產品行銷經理陳建成指出,提高SNR、AOP和相位一致性等參數是MEMS麥克風不變的發展趨勢,而在各家業者技術和產品規格相差無幾的情況下,如何找出新的「賣點」,是供應商須不停思考的事情。
陳建成進一步說明,以遙控器為例,為了提升消費者使用體驗,遙控器上面可能不僅有語音功能,可能還增添了體感功能,讓消費者揮動雙手也能操控(例如換頻道、遊戲互動等)。而要達到上述功能,遙控器上不只需有MEMS麥克風,還需要有加速度計;而ST的優勢便在於有完整的MEMS感測器產品線,不論是麥克風、加速度計、溫度/環境感測器等皆有生產,因此可採用SiP封裝的方式,整合麥克風與加速度計,進而減低終端產品業者的商品開發時間與複雜度。
陳建成表示,原本用SiP封裝整合MEMS麥克風與其他感測器多是用於工業市場(測機台震動頻率和噪音等),但隨著語音控制在大眾消費市場快速興起,從原本的手機、電腦慢慢擴散到其他裝置,如電視、喇叭等,且各種消費裝置上的感測器愈來愈多的情況下,便逐漸將此一作法移至消費性產品,不僅簡化終端產品的設計難度,也藉此在競爭激烈的MEMS麥克風市場中找出差異化的優勢。
實現高效音訊訊號擷取 MEMS麥克風效能更上層樓
相較於傳統駐極體電容式麥克風(ECM),MEMS麥克風提供許多更好的優點。在效能等級相同的情況下,MEMS麥克風體積較小,來自多個麥克風的音訊訊號放大與相位也可相互匹配。此外,MEMS技術在抗高溫能力方面較為優異,而且適用於回流焊,因此可使用自動化電路板組裝。也因此,許多半導體業者紛紛推出MEMS麥克風解決方案,例如英飛凌便於近期發布XENSIV MEMS麥克風--IM69D130(圖1),以提供精確的語音辨識。
圖1 半導體業者推出新一代MEMS麥克風,克服現有音訊訊號鏈的限制。
高效能麥克風降低雜訊
麥克風做為聲音感測器,可將聲壓波轉換為電子訊號。然而,並非所有麥克風都具有同等的能力,而且有多項參數決定麥克風是否適用於特定應用。
麥克風輸出訊號中的電子雜訊,並不只是來自於所須輸入訊號的所有訊號有關。雜訊可能存在於環境中或來自麥克風本身,而且雜訊位準越高,音訊訊號的品質越低。各種參數或規格定義了麥克風的雜訊。一方面是自有雜訊,這是在沒有聲音訊號時,麥克風本身產生的雜訊,以Vrms、dBV或dBFS測量。等效輸入雜訊是對應於麥克風輸出處電子雜訊位準的虛數聲學雜訊位準,以dB聲壓水準(dB SPL)表示。訊噪比(SNR)是一個重要的標準。SNR值以dB表示,是相對於預期或期望輸入訊號的麥克風自有雜訊量度(圖2)。
圖2 MEMS麥克風在高聲壓水準的環境下,亦能提供無失真的音訊訊號。
其他重要的麥克風品質特性還有失真,如總諧波失真(THD)及聲學過載點(AOP)。實際上,如同所有訊號轉換器,麥克風也是非線性的,亦即會產生一定的失真。在失真的情況下,額外的訊號為諧波(通常是2至5次諧波)。THD是這些諧波中包含的能量與基頻能量的比率,以百分比表示。基本上,AOP定義了THD超過10%的點。但是,在要求較高的應用中,有時也將AOP指定為THD超過1%的點。
最佳化演算法降低訊號干擾/失真
對於執行演算法的系統而言,擷取聲音訊號的方式與人耳感知聲音的方式不同,因此聲音品質的目標也是不同的。只要針對所使用的演算法進行最佳化,訊號就不一定要聽起來很自然,重要的是訊號不受干擾、失真及雜訊影響,各種應用皆然。
自動語音辨識是將語音訊號自動轉換為書面文字的程序,目前的準確度約為95%,已非常接近人類水準;到目前為止,此值只有在環境條件非常有利的實驗室中才能實現。在開發語音控制系統時,基本概念應始終聚焦於可靠性以及使用者的易用性。為實現此目標,系統設計人員必須考量現場的實際應用,例如使用者與麥克風之間可能的距離,以及預期的背景噪音量。唯有如此才能設計出可實現最佳效能的系統。
實際上,特別是當喇叭不在附近時,語音控制通常在聲學方面有相當大的困難,例如背景噪音、殘響、回音消除及麥克風位置等。因此,僅擁有良好的語音辨識軟體是不夠的。系統的每個組件皆應提供最佳效能,以避免發生品質損失。麥克風的任務是為語音辨識系統提供最佳的輸入訊號,而高品質的輸入訊號有助於分析傳入聲音的語音內容。關鍵參數包括噪音、失真、頻率響應及相位。
在嘈雜的環境中,如果使用的麥克風具有高線性度以盡可能減少失真,則可以大幅改善語音辨識。高AOP有助於大幅減少失真並改善噪音與回音的抑制。有時語音訊號本身不夠響亮,並且還有其他聲音造成干擾。例如,當喇叭靠近語音啟動終端裝置的麥克風,或是當數位語音助理正在播放響亮的音樂或語音資訊時。
提高訊噪比為降噪主要步驟
與語音訊號源的距離越大,饋送至演算法之訊號的訊噪比就越低。因此,如果預期的偵測距離較大,麥克風的訊噪比就應該更高。
如果可以從訊號中遮蔽掉不需要的聲音,即可改善音訊與視訊訊號的偵測以及對話的品質。其目標是提高訊噪比,在此情況下即為所需要的音訊與不需要的環境噪音之間的比率。透過使用多個麥克風與適當的算法,可實現降噪與方向特性。
定向麥克風陣列(例如使用波束成形演算法)可增加麥克風在所需方向的靈敏度,同時放大所需的聲音來源。有一種複雜的抑制噪音方法是「盲源分離」演算法,無論方向、距離及來源位置為何,皆可抑制噪音。所有上述噪音抑制技術皆可獲益於所接收訊號的準確性與品質。因此,麥克風應具有最大訊噪比、低失真、線性頻率響應(可改善相位響應)及低波群延遲。
半導體商力推高效能MEMS麥克風
上述提到,MEMS麥克風需求增加,半導體業者也相繼推出解決方案,以英飛凌為例,該公司旗下的XENSIV MEMS麥克風「IM69D130」訊噪比為69dB,專為需要低自有雜訊、高動態範圍、低失真及高AOP的應用而設計。
此款麥克風結合英飛凌的雙背板技術,此技術以錄音電容式麥克風所使用的小型化、對稱式麥克風設計為基礎,可在105dB的動態範圍內實現輸出訊號的高線性度。麥克風的噪音底部為25dB(69dB訊噪比),即使聲壓位準為128dB SPL(130dB SPL時失真率為10%),失真率也不會超過1%。這意味著即使喇叭正在播放音樂,也可以無失真地偵測語音命令。線性頻率響應(28Hz低頻衰減)與嚴格的製造公差實現麥克風的緊密相位匹配(圖3)。此麥克風採用4mm×3mm×1.2mm封裝。
圖3 IM69D130典型的相位響應
此外,該產品憑藉其靈敏度(±1dB)與相位匹配(1kHz時為±2O),可支援極為精確的音訊波束成形,以提供創新的高效能音訊與語音演算法(圖4)。由於其具備數位介面,因此無需類比組件,如此也降低了保護電路板免受高頻雜訊影響的成本,而且多麥克風應用所需的資料線也會更少。同時,數位麥克風ASIC包含極低雜訊前置放大器與高效能Sigma-Delta AD轉換器(1kHz時僅6μs延遲)。可選擇不同的功率模式以符合特定的電流消耗要求。每個IM69D130麥克風皆經過微調,因此靈敏度的公差非常小(±1dB)。
圖4 IM69D130方塊圖
簡而言之,該產品結合的創新演算法易於處理高品質音訊原始資料訊號,可處理要求嚴苛的語音辨識場景,例如遠場偵測及擷取細微的語音;MEMS麥克風的效能提升,不再是音訊訊號鏈的限制因素,因而能支援強大的語音演算法。
(本文作者為英飛凌科技公司MEMS麥克風部門行銷經理)