然而,由於聲控所需之系統效能與一般語音辨識截然不同,因此,聲控專用演算法必須重新設計才能夠滿足客戶需求,因此掀起目前All-in-one聲控方案研發熱潮。
為此,半導體業者便開發出一套優異抗噪能力之語音觸發詞聲學模型,與ARM處理器及MEMS麥克風結合且毋須連接網路,也毋須回音消除的專屬DSP晶片之低成本聲控方案;其模型經由深度學習演算法訓練並加強噪音辨識能力,成功提升SNR=0dB的高噪音環境下觸發詞辨識率高達98%,並且在160毫秒之內做出反應,此模型適用於智慧空調或汽車導航等喧鬧環境下的聲控系統。
聲控應用增 AI-base語音觸發技術亮相
本文將以東芝半導體為例,圖1表示東芝在過去半世紀如何發展影像以及語音方面的AI技術,也列出相關產品的主要成果。經過三次人工智慧研究的熱潮期,自動辨識的主流技術從人工的Rule-base經由半自動的Model-base,進化成全自動的AI-base,後者之優勢是利用Big Data與超級電腦的巨大演算能力,快速訓練出數學模型之隱藏層的內部變數,模擬人類大腦所具有之非線性問題的推論能力,突破性的改善自動辨識率。
雖然語音自動辨識技術採取了上一段所提及的AI-base,但其產品的行銷策略與影像不同。因此,東芝把「聲控」視為語音辨識應用當中的「藍海」,自行研發離線式語音觸發(Voice Trigger)相關軟體技術,並推出第一代解決方案。此演算法所需之CPU能力遠低於影像辨識,雲端所訓練之聲學模型也不需經由硬體IP化,可直接載入軟體Library至ARM-A9或M4等級的微處理器平台。
舉例而言,亞馬遜推出的Echo或是Google Home等智慧音箱,無論是詢問天氣狀況還是搜尋附近咖啡店的地址,這些所謂「語音助理」服務不外乎是辨識使用者發出的語音內容,在網路上找尋答案,並把資料格式轉換成語音之後播放給使用者聽。
此時,讀者也許會試想,為何不將智慧音箱的語音辨識能力,直接用於「聲控」家電?智慧音箱也可以瞭解使用者的指令,並透過Wi-Fi而控制客廳的燈泡開關,甚至調整空調的室溫或風向等。那麼,這種智慧音箱+無線聲控的方式與「語音觸發」模組的差異在哪?聲控模組又適合何種情況或應用方面?以下將說明兩者差異。
如圖2上方所示,當使用智慧音箱並想變更空調溫度時,使用者會發現空調端的反應並不即時。主因是極為複雜的控制流程;智慧音箱本身不支援語音辨識功能,反而需要雲端AI幫忙,這意味著使用者所發出的語音資料(步驟1)需要先上傳至雲端(步驟2),經由雲端AI處理語音並辨識出其內容(步驟3)之後再度下載到智慧音箱(步驟4)。
由於智慧音箱與空調機之間有一定距離的存在,所以還需要經過Wi-Fi或其他無線通訊協定並傳送指令至空調機之後才能完成室溫調整的工作(步驟5)。該方式除了反應緩慢之外,也必須經過外線網路,這不僅容易遭遇駭客入侵並增加個資外洩的風險,還會產生雲端之間的通訊費用以及無線通訊模組成本的增加。
如圖3下方所示,語音觸發與智慧音箱的不同在於,空調本身內建一套具有「語音觸發」能力的聲控模組;輸入使用者語音(步驟1)後,便不須經過遠端AI設備並直接辨識語音內容(步驟2),立刻完成室溫調整的工作(步驟3)。原本需要五個步驟的聲控流程,省下雲端之間的來回路徑。除了提升反應速度及網路安全,也節省了通訊費用與無線模組的成本。
透過語音觸發提升聲控反應時間
為此,東芝的語音觸發軟體採取了各種效能優化的措施,除了能避免外線網路所造成的延誤時間之外,還能進一步縮短聲控的反應時間。如圖3上方所示,一般語音辨識通常必須經過四個步驟:(1)偵測並暫存語音、(2)語意分析、(3)得分評比,以及(4)答案判斷。若使用者的目的不是AI對話而是聲控,則可讓語音辨識步驟更為簡化,以不影響其辨識效能之方式進而改善反應速度。
首先第一步廢除Talk Switch。一般語音辨識裝置如iPhone Siri會搭配一個Talk Switch,使用者按下其開關之後才能啟用語音辨識功能,其目的為不使用時以關閉相關功能而降低消耗電流。東芝的聲控模組不採用Talk Switch,當使用者啟動機器,整個聲控模組以及語音觸發功能也會自動開啟。此模組會一直保持待機狀態並不會進入休眠模式,當模組一接收到語音就會立刻「觸發」模組,並開始辨識內容,聲控反應更加敏捷。
第二點是不使用緩衝記憶體。語音辨識主要目的通常是辨識句子。因為句子是由多數單詞所組成,所以聲控模組必須先把整個句子暫存到緩衝記憶體,再利用語法解析器分解成一個個的單詞,才會開始進行語意分析並辨識句子的內容,這演算法勢必會產生緩衝時間,延誤反應時間。但聲控時所使用的語句,與一般語音辨識不同,是少數、預先定義而不變的觸發詞,因而不採用緩衝記憶體結構而立刻進行語意分析,進而達到反應速度大幅改善。
第三點是不做得分評比。Model-base或AI-base的語音辨識法,包括東芝的語音觸發,都是以相似度分數的高低來表達答案的正確性。相似度分數越高,正確性也就越高。得分評比通常被使用在多數觸發詞的聲控機器;它的作用是在FRR(False Rejection Rate,使用者發話,機器卻無反應)較高的環境之下,先降低「門檻指數」讓機器容易同時偵測到多數的可能答案,再依照相似度排列所有答案並選擇相似度最高為正確答案。
接著,將此得分評比的步驟改為選項;若使用者的機器只須辨識兩到三個少數觸發詞的話,語音觸發軟體可省下此步驟,直接選出大於門檻指數的觸發詞作為答案,進一步加快語音觸發的處理速度。如圖3下方所示,東芝的聲控模組經由以上三個加速措施而在160毫秒內做出反應,在相同的辨識率條件之下,目前優於任何聲控方案商的反應速度。
聲控效能驗證結果
圖4為東芝模組的聲控效能實驗結果。我們選用了圖中的十個中文喚醒詞,並調整過靈敏度門檻指數,設置本機於空調機器旁邊,再將空調風量設為最大值來進行實驗。在S/N值約為0dB的實驗環境中,邀請了十個人,從距離空調1、3、5公尺的地方發出10種喚醒詞各三次,並重複此實驗。實驗取得了300次取樣母數,再將其辨識成功次數以百分比呈顯在圖表上。
值得一提的是,此模組雖然只使用Knowles製的廉價MEMS麥克風,也沒有做任何麥克風相關的設計優化,卻呈現了良好的辨識率(AC_High_1M:98%)。這是因為AI-model在雲端被訓練時,已將各種類型的風切聲加入至聲學模型中,使其有萬用型抗噪能力,相信此一成果將會改變語音辨識的設計概念。現在的聲控模組,融合了類比麥克風及數位演算平台,為了噪音消除,類比麥克風負責波束增強,雜訊濾波等語音處理的前端工作。若後端演算法的抗噪能力不夠理想,就必須加強前端類比麥克風的抗噪功能來輔助後端的不足。
但問題在於,一般類比元件的電氣特性易受其材料的影響而難以實現品質控制,聲控優化於是成了一項難題,更成為了系統研發上的瓶頸;而此一聲控模組方案,方便系統製造商就近享有與類比麥克風同等的噪音消除效果。
圖5表示東芝的語音觸發聲控模組所採用之高階及中低階處理器。TZ2100可扮演一顆聲控晶片的角色,也可負責智慧家電的系統處理,如顯示面板、錄放多媒體資訊等。圖5左方所示,智慧家電的系統開發者一旦採用TZ2100聲控模組方案,便可取代原有家電MCU的所有功能,也能進一步降低整體系統的硬體成本。另一款中低階處理器TMPM4G6則具備兩項優點,分別是低成本及Time-to-Market。在晶片成本方面,雖然TMPM4G6模組保留可足夠於執行語音觸發軟體的記憶體容量以及MEMS麥克風的連接介面,卻也犧牲了較少使用的各種IP並降低晶片的製造成本,故成了針對聲控用途的另一低成本選擇方案。