- Advertisement -
首頁 技術頻道 實現高效音訊訊號擷取 MEMS麥克風效能更上層樓

實現高效音訊訊號擷取 MEMS麥克風效能更上層樓

- Advertisement -

相較於傳統駐極體電容式麥克風(ECM),MEMS麥克風提供許多更好的優點。在效能等級相同的情況下,MEMS麥克風體積較小,來自多個麥克風的音訊訊號放大與相位也可相互匹配。此外,MEMS技術在抗高溫能力方面較為優異,而且適用於回流焊,因此可使用自動化電路板組裝。也因此,許多半導體業者紛紛推出MEMS麥克風解決方案,例如英飛凌便於近期發布XENSIV MEMS麥克風–IM69D130(圖1),以提供精確的語音辨識。

圖1 半導體業者推出新一代MEMS麥克風,克服現有音訊訊號鏈的限制。

高效能麥克風降低雜訊

麥克風做為聲音感測器,可將聲壓波轉換為電子訊號。然而,並非所有麥克風都具有同等的能力,而且有多項參數決定麥克風是否適用於特定應用。

麥克風輸出訊號中的電子雜訊,並不只是來自於所須輸入訊號的所有訊號有關。雜訊可能存在於環境中或來自麥克風本身,而且雜訊位準越高,音訊訊號的品質越低。各種參數或規格定義了麥克風的雜訊。一方面是自有雜訊,這是在沒有聲音訊號時,麥克風本身產生的雜訊,以Vrms、dBV或dBFS測量。等效輸入雜訊是對應於麥克風輸出處電子雜訊位準的虛數聲學雜訊位準,以dB聲壓水準(dB SPL)表示。訊噪比(SNR)是一個重要的標準。SNR值以dB表示,是相對於預期或期望輸入訊號的麥克風自有雜訊量度(圖2)。

圖2 MEMS麥克風在高聲壓水準的環境下,亦能提供無失真的音訊訊號。

其他重要的麥克風品質特性還有失真,如總諧波失真(THD)及聲學過載點(AOP)。實際上,如同所有訊號轉換器,麥克風也是非線性的,亦即會產生一定的失真。在失真的情況下,額外的訊號為諧波(通常是2至5次諧波)。THD是這些諧波中包含的能量與基頻能量的比率,以百分比表示。基本上,AOP定義了THD超過10%的點。但是,在要求較高的應用中,有時也將AOP指定為THD超過1%的點。

最佳化演算法降低訊號干擾/失真

對於執行演算法的系統而言,擷取聲音訊號的方式與人耳感知聲音的方式不同,因此聲音品質的目標也是不同的。只要針對所使用的演算法進行最佳化,訊號就不一定要聽起來很自然,重要的是訊號不受干擾、失真及雜訊影響,各種應用皆然。

自動語音辨識是將語音訊號自動轉換為書面文字的程序,目前的準確度約為95%,已非常接近人類水準;到目前為止,此值只有在環境條件非常有利的實驗室中才能實現。在開發語音控制系統時,基本概念應始終聚焦於可靠性以及使用者的易用性。為實現此目標,系統設計人員必須考量現場的實際應用,例如使用者與麥克風之間可能的距離,以及預期的背景噪音量。唯有如此才能設計出可實現最佳效能的系統。

實際上,特別是當喇叭不在附近時,語音控制通常在聲學方面有相當大的困難,例如背景噪音、殘響、回音消除及麥克風位置等。因此,僅擁有良好的語音辨識軟體是不夠的。系統的每個組件皆應提供最佳效能,以避免發生品質損失。麥克風的任務是為語音辨識系統提供最佳的輸入訊號,而高品質的輸入訊號有助於分析傳入聲音的語音內容。關鍵參數包括噪音、失真、頻率響應及相位。

在嘈雜的環境中,如果使用的麥克風具有高線性度以盡可能減少失真,則可以大幅改善語音辨識。高AOP有助於大幅減少失真並改善噪音與回音的抑制。有時語音訊號本身不夠響亮,並且還有其他聲音造成干擾。例如,當喇叭靠近語音啟動終端裝置的麥克風,或是當數位語音助理正在播放響亮的音樂或語音資訊時。

提高訊噪比為降噪主要步驟

與語音訊號源的距離越大,饋送至演算法之訊號的訊噪比就越低。因此,如果預期的偵測距離較大,麥克風的訊噪比就應該更高。

如果可以從訊號中遮蔽掉不需要的聲音,即可改善音訊與視訊訊號的偵測以及對話的品質。其目標是提高訊噪比,在此情況下即為所需要的音訊與不需要的環境噪音之間的比率。透過使用多個麥克風與適當的算法,可實現降噪與方向特性。

定向麥克風陣列(例如使用波束成形演算法)可增加麥克風在所需方向的靈敏度,同時放大所需的聲音來源。有一種複雜的抑制噪音方法是「盲源分離」演算法,無論方向、距離及來源位置為何,皆可抑制噪音。所有上述噪音抑制技術皆可獲益於所接收訊號的準確性與品質。因此,麥克風應具有最大訊噪比、低失真、線性頻率響應(可改善相位響應)及低波群延遲。

半導體商力推高效能MEMS麥克風

上述提到,MEMS麥克風需求增加,半導體業者也相繼推出解決方案,以英飛凌為例,該公司旗下的XENSIV MEMS麥克風「IM69D130」訊噪比為69dB,專為需要低自有雜訊、高動態範圍、低失真及高AOP的應用而設計。

此款麥克風結合英飛凌的雙背板技術,此技術以錄音電容式麥克風所使用的小型化、對稱式麥克風設計為基礎,可在105dB的動態範圍內實現輸出訊號的高線性度。麥克風的噪音底部為25dB(69dB訊噪比),即使聲壓位準為128dB SPL(130dB SPL時失真率為10%),失真率也不會超過1%。這意味著即使喇叭正在播放音樂,也可以無失真地偵測語音命令。線性頻率響應(28Hz低頻衰減)與嚴格的製造公差實現麥克風的緊密相位匹配(圖3)。此麥克風採用4mm×3mm×1.2mm封裝。

圖3 IM69D130典型的相位響應

此外,該產品憑藉其靈敏度(±1dB)與相位匹配(1kHz時為±2O),可支援極為精確的音訊波束成形,以提供創新的高效能音訊與語音演算法(圖4)。由於其具備數位介面,因此無需類比組件,如此也降低了保護電路板免受高頻雜訊影響的成本,而且多麥克風應用所需的資料線也會更少。同時,數位麥克風ASIC包含極低雜訊前置放大器與高效能Sigma-Delta AD轉換器(1kHz時僅6μs延遲)。可選擇不同的功率模式以符合特定的電流消耗要求。每個IM69D130麥克風皆經過微調,因此靈敏度的公差非常小(±1dB)。

圖4 IM69D130方塊圖

簡而言之,該產品結合的創新演算法易於處理高品質音訊原始資料訊號,可處理要求嚴苛的語音辨識場景,例如遠場偵測及擷取細微的語音;MEMS麥克風的效能提升,不再是音訊訊號鏈的限制因素,因而能支援強大的語音演算法。

(本文作者為英飛凌科技公司MEMS麥克風部門行銷經理)

相關文章

- Advertisement -
- Advertisement -

最新文章

- Advertisement -

熱門文章

- Advertisement -

編輯推薦

- Advertisement -