語音助理
聯發科偕Orange推智慧音響 鞏固龍頭寶座
聯發科技日前宣布攜手法國電信大廠Orange,將該公司語音助理裝置(VAD)處理平台MT8516用於最新亮相的Djingo智慧音響中。預計本次合作將使聯發科拓展其智慧語音應用版圖,鞏固龍頭寶座。
聯發科日前宣布聯手法國電信商Orange推出Djingo智慧音響。
聯發科技資深副總經理暨智慧裝置事業群總經理游人傑表示,聯發科技為智慧家庭系統提供智慧語音助理晶片解決方案,該晶片組可大幅提高產品性能和功效,為Djingo智慧音響及其他各款語音助理裝置帶來良好AI功能。
Djingo智慧音響由製造商Arcadyan及軟體整合商SoftAtHome合作開發,藉由MT8516平台的功能,Djingo虛擬助理可支援先進人工智慧及自然語言處理功能,使此迷你音響提供使用者優質對話介面。
MT8516平台結合Wi-Fi(2.4GHz 802.11 bgn)及藍牙、內建射頻單晶片,並整合四核、64位元Arm Cortex-A35 MPCore,運作頻率可達1.3GHz;除原始NAND支援外,亦具彈性儲存支援能力,包含LPDDR2、LPDDR3、DDR3、DDR3L及DDR4,以因應不同平台需求。
該平台節能高效,多種連結介面使音效裝置及麥克風陣列處理發揮良好性能;平台可有效簡化晶片設計並減少平台尺寸,實現產品更小及更高效的設計;同時PowerAQ工具提供簡易操作的介面,用於訊號流程設計及音頻參數調整,因此無需安裝數位訊號處理器(DSP)便可減少成本並加快設計流程。
聯發科於語音助理市場市占率穩坐第一。
Orange專案總監Jean-Pierre Combe表示,Djingo智慧音響將提供使用者享有Orange及其他合作夥伴優質音控服務。雙方合作使消費者透過Djingo更輕易操控OrangeTV、智慧家居、電話通訊及多項服務。
目前消費者日漸依賴語音裝置以增加生活便利性,根據Juniper Research數據指出,當今全球語音助理裝置已超過32億5千萬台。聯發科旗下語音助理晶片目前已獲市面上多種語音助理產品採用,包括亞馬遜智慧音箱 Echo Dot、Fire TV Stick 4K、Google語音助理、阿里巴巴等都有聯發科技的晶片在其中,為語音助理裝置全球市占率第一的晶片提供者。如今再與法國電信大廠Orange合作,打入其Djingo智慧音響供應鏈,可望更進一步鞏固該公司在語音助理市場的龍頭寶座。
語音世界的未來潛力
一九九○年代,網路世界是一個封閉的地方。許多使用者都用像是美國線上這類入口網站來管理自己的網路瀏覽需求,把資訊都集中在同一個入口網站上,並且列出有用的外部網站,藉此瀏覽體育資訊、金融資訊等。使用者大多是在封閉的環境裡上網,這種生態也因此稱為「圍牆花園(Walledgarden)」。後來,Google用鐵鎚擊破圍牆,推出搜尋引擎,讓大家可以自行在網路世界裡輕易找到想要的網頁。從此以後,我們便能在整個網路世界裡自由翱翔。
但是過去幾年來,有一件奇怪的事發生了。Google和亞馬遜竟然在重建花園的圍牆。Google推出即時回答,讓使用者有時不需要跳出搜尋結果頁面,就可以得到想要的資訊。Google和亞馬遜也都設計出自家的語音助理。語音助理就是一種入口網站,像是數位行銷商Huge創意總監Sophie Kleber說道:「Alexa就是語音世界的美國線上。」
Google助理與Alexa平台上許多熱門的應用程式,也都是Google或亞馬遜自行設計的。要用第三方應用程式,使用者必須先經過Google助理或Alexa。例如,使用者通常會用所謂的「呼喚語(Invocation Phrase)」呼叫Alexa技能。使用者可能會說:「Alexa,我要聽《華盛頓郵報》的頭條」,或是「Alexa,玩《危險邊緣》。」同樣地,Google助理的使用者也會說:「打開Yelp」或「ESPN上有什麼新聞?」
語音科技的重點並非取代傳統的智慧手機應用程式,而是開發新的可能。
如果使用者知道自己要用哪一個語音應用程式,這樣的模式就沒有什麼問題;但是如果使用者不知道自己要用的是什麼,會如同矇上眼睛在飛行,就像在沒有搜尋引擎協助的情況下,要找到新的網站。如果使用者詢問的問題或是說出的指令沒有指明要用哪一個應用程式,Alexa或Google助理就會自行決定該如何回答問題或執行指令。如此一來,Google和亞馬遜就握有強大的權力,能夠主導語音流量的去向。
這樣的模式看起來就很像以前的圍牆花園,會形成這樣的模式,其實也不一定是因為亞馬遜或Google 本身渴望握有控制權,但是這些企業肯定很享受這樣的權力所帶來的利益。在語音的世界裡,本來就適合以單一數位實體掌控一切,Siri的原始研發團隊肯定支持這樣的想法。如果沒有一個主宰的語音助手,所有的語音應用程式都會是獨立開發,這樣一來,每個應用程式都有自己的名字、自己的獨特功能、自己的一套指令。「我覺得大家不可能記住數萬個不同的名字和數萬套不同的指令。」切爾說道:「這種模式先天就無法規模化。」
切爾與吉特勞斯離開蘋果後,創辦Viv。Viv追求的是另外一個目標:創造獨立運作、全知全能的助理。Google和亞馬遜雖然很明顯地漸漸在扮演資訊守門人的角色,但是它們本身不想要被大眾當成資訊守門人。但是Viv不一樣,該公司開宗明義就明白宣告,目標就是要做出全能的助理--終極的電腦,有了它,就不需要其他的電腦。
的確,Viv的科技其實已和第三方應用程式配合,畢竟切爾一直以來的運作模式都是如此,但是第三方應用程式都是在背後暗中進行,使用者不會看到,使用者只會和一個助理互動。Viv在2018年下半年推出,裝載在全世界數百萬台三星裝置上。「這是一場競賽。」吉特勞斯說道:「各大企業爭相成為使用者的單一介面。」
2016年至今,各種聊天機器人和語音應用程式如雨後春筍般出現,許多企業一窩蜂搶進。
各大科技公司表現大盤點
Viv擁有強大的科技,因為它使用的科技是語音助理這個領域最初先鋒所研發的,但是因為進入市場時間較晚,算是競賽中的一匹黑馬,和其他競爭者競逐成為主導介面。這場競賽在幾年前似乎比較開放,大家都可以來競爭,但是現在競賽已經比到某種程度,占有優勢的參賽者已經出線了。
現在,我們來盤點每家公司的表現。首先是蘋果,Siri是全世界普及的數位助理,平均每個月接獲的指令數高達一百億則,而且支援20多種語言。
這是好消息,但壞消息是蘋果並未遵照原始創辦團隊的構想行事,所以Siri並沒有發揮應有的實力。許多科技評論家都開始批評Siri,Siri儼然成為語音人工智慧界的眾矢之的。評論寫道:Siri「很糊塗」又「很難堪」(《華盛頓郵報》);「蘋果錯失的最大契機」〔《休士頓紀事報》(Houston Chronicle)〕「有重大缺陷」(《紐約時報》)。科技分析家Jeremiah Owyang在接受《今日美國》(USA Today)訪談時表示:「感覺蘋果好像完全放棄了Siri。」
這麼說是有點過頭了,但是蘋果的確該受到批評。蘋果原本是語音人工智慧的領頭羊,但是現在卻落後了。蘋果直到2018年2月才推出自家的智慧音響HomePod,比Google Home慢了將近1年半,比亞馬遜Echo慢了整整3年半。HomePod推出後,評論家對其音質表示讚賞,但也提到HomePod價格高昂的問題。一台HomePod要價349美元,亞馬遜Echo只要99美元;而且許多評論家也對Siri提出批評,表示HomePod上的Siri性能很差勁。到了2018年6月,HomePod在美國智慧居家音響市場的市占率只有4%。
針對語音科技,蘋果採取的策略其實和公司的本質定位有關。蘋果的本質是電子裝置製造商,因此把Siri當成自家裝置上的優秀功能,而不是當作獨立出售的產品。然而,Google與亞馬遜都預測在未來環繞運算會成為主流。如此一來,語音科技確實會為蘋果帶來風險。在未來,聰明的人工智慧住在雲端上,透過價格低廉的商品和使用者講話,而蘋果專門販賣高價裝置,在這種情境下,蘋果的地位會受到極大的衝擊。
開發人員可以讓使用者透過Siri和各種應用程式溝通,開放的應用程式分為六大類:文字訊息、音訊與視訊通話、支付、照片、運動,以及服務叫車。
接下來是微軟。微軟有一個世界級的人工智慧部門,部門裡有8,000名員工。微軟有搜尋強大的引擎Bing,提升語音助理的問答能力,而且微軟的虛擬助理Cortana 已經確立自己的地位。
但是, 微軟提升Cortana在消費者市場的市占率方面遇上了困難。Bing或Skype都支援Cortana,但是這兩個平台的用戶量卻遠遠不及Google或Messenger。Windows Phone上也能使用Cortana,但是它的市占率一直無法脫離個位數,甚至只有個位數出頭,所以在2017年停產了。在智慧音響的戰場上,Cortana 裝載在哈曼卡頓的智慧音響Invoke 裡,但是這款音響的市占率小到幾乎無法計算。開發人員不想花時間為一個很少人用的平台設計語音應用程式,所以大多數都選擇避開Cortana。
儘管面臨這些挑戰,但是微軟並沒有放棄。Cortana裝載在Windows作業系統上,而且每個月有1億4,500萬名活躍用戶。微軟並不是把Cortana定位成全能、全民型的人工智慧,而是定位為職場助理,這很符合微軟近期的總體經營策略:專門為企業提供軟體與雲端服務,而人工智慧語音科技就是其中之一。所以,微軟即便在語音科技的戰場上並沒有總體優勢,但是在企業領域裡,有條件成為一支精實勁旅。
再來是臉書,臉書在語音世界的未來很難預測。如果說全世界都和中國一樣,有十億人都在用微信,並把微信當成整個網路世界的入口,臉書的條件就很好,因為Messenger上已經有許多強大的機器人。不過,未來的趨勢會不會如此,現在仍然難以預料。
除了Messenger以外,臉書也做了不少對話式人工智慧的研究,但並不是很積極把成果轉換為產品。根據傳聞,臉書已經研發出自己的智慧居家音響,但是後來因為爆發劍橋分析醜聞,引爆隱私爭議,於是便暫緩發表。所以,目前臉書的得分是「不完整」。
剩下Google和亞馬遜。無論用什麼指標衡量,這兩家公司目前是競賽中最具優勢的。2018年,支援Cortana 的裝置只有區區39個,支援蘋果和Siri 的裝置有194個,支援Google助理的裝置超過5,000多個,而支援Alexa 的裝置則達到20,000個。Google 助理有超過1,700個應用程式,而Aelxa 在全球則有五萬個應用程式。在美國,亞馬遜的智慧居家音響市占率為65%,Google 則為20%。
有了語音,科技可以變得較不人工,我們能讓機器變得更像人類,並且廣泛應用在生活中。
既然Google 和亞馬遜是前兩大競逐企業,最好的評估方法就是檢驗兩家公司分別有什麼方法可以透過語音賺取利潤。如果你把獲利的問題拿來詢問這兩家公司的高層,他們會緊張地說出一連串的陳腔濫調,表示現在這項科技還處於早期階段,公司目前正在想辦法提升使用者體驗,等使用者體驗做到最好之後,自然就會有獲利。這種回答雖然是在迴避問題,但是其實不假,目前這些公司都在搶地盤,擴大用戶量,因為它們知道擁有主導地位的平台,自然會有各種方法大發利市。
但是就連在現階段,公司高層也已經在思考各種商業模式。最直接的獲利方法,就是藉由販賣裝置賺取營收,亞馬遜賣Echo,Google賣Home。但是有別於蘋果,這兩家公司對這個選項似乎不是特別感興趣,因為現在它們都刻意壓低裝置的價格,用以提升市占率。
有一家獨立研究公司把Echo Dot 拆開檢查,評估所有組件加總的成本是35美元,加上間接成本與運送費用,總成本還要更高。不過,亞馬遜Echo Dot 的定價最低,為29.95美元。「公司是靠著消費者使用我們的服務賺錢,而不是靠著消費者購買裝置賺錢。」Alexa...
AI語音助理即將從雲端落地
目前的AI語音助理使用者,經常要面對網路環境不穩定,導致使用過程被中斷的無奈現象。但隨著Google、Amazon在2018年下半年提出終端裝置(On-Device)AI語音助理的應用發展概念,使用者未來即使是在網路離線的狀態下,仍然可以使用部份的AI語音助理功能。資策會MIC資深產業分析師林巧珍表示,美國的消費者,因為AI語音助理內建至各類型智慧裝置與智慧家具的趨勢,而產生的隱私疑慮聲浪與日俱增,已經成為美國消費者採購商品的主要考量因素之一。
根據資策會MIC在今年五月針對國內1000位民眾的調查結果顯示,臺灣使用者對於採購AI語音助理的優先考量因素,前三名分別為「可靠性與連網穩定性、個資隱私保護、價格接受度」。資深產業分析師林巧珍認為,這次的調查結果首度呈現消費者對於隱私權的重視遠超過產品價格,未來業者在推出邊緣或離線AI語音助理應用時,也必須同時兼顧消除使用者隱私權疑慮的服務品質。預期未來兩年,相關邊緣或離線AI語音助理的應用產品將明顯攀升,多款模型「分散在眾多終端裝置上訓練」的情境將愈見普遍,AI語音助理將從雲端服務朝向「落地服務」的方向發展。
資策會MIC表示,「落地版」AI語音助理應用普及化將嘉惠國內業者。雖然在「純雲端」的AI語音助理時代,國內相關業者掌握許多AI語音助理裝置的關鍵零組件與組裝訂單。但是過往以雲端運算為主流的發展模式,終端裝置的運算效能與記憶體空間等因素,沒有在發展過程中獲得較多的關注,導致國內業者,雖然擁有強大的硬體技術能力,也搭上AI語音助理的發展浪潮,卻還是難以持續的創造穩定獲利。
資深產業分析師林巧珍認為,落地版AI語音助理必須持續朝向「瘦身與壓縮」的方向發展,以符合現行終端裝置的硬體限制,但是又要同時滿足消費者的無限需求,想要提供愈多的功能服務,就會涉及愈多的演算法。所以預期未來的AI語音助理終端裝置的運算效能、記憶體空間,都還需要更進一步的提升,才能實現真正的離線應用情境,就會帶動AI晶片(AI on chip)與相關零組件規格的需求攀升,有望為國內業者帶來一波新商機。
用的好不如用的巧 應用分眾化讓AI晶片更靈活
根據國際研究調查機構IDC預測,2019年全球物聯網(IoT)衍生的商機逼近1兆美元,其中,扮演關鍵角色的是人工智慧(AI)結合IoT所形成的AIoT新趨勢。2015~2017年,全球物聯網市場規模年均複合成長率為3.8%,但隨著AI興起,2017~2020年,估計全球物聯網商機每年將有24.2%的成長幅度,2019年市值逼近1兆美元,2020年則上看1.29兆美元。
AIoT商機蓬勃發展,加上AI技術逐漸成熟及相關應用服務持續興起,各大AI晶片國際大廠除了持續布局雲端運算之外,也致力發展AI邊緣運算,以實現智慧音箱、無人機、機器人、AR/VR與智慧監控等新興應用;AI邊緣運算晶片也因而開始走向分眾專用化,同時其架構也變得更加彈性、靈活,如此一來才可以滿足多元、少量多樣的AI應用市場。
應用場景陸續浮現 AI視覺占大宗
AI應用快速發展,賽靈思(Xilinx)工業、視覺、醫療與科學市場總監Chetan Khona表示,2019年人工智慧將會加速往邊緣(類比/數位邊界)應用轉移,讓AI能廣泛運用在各種低延遲且安全關鍵(Safety Critical)的應用。
CEVA客戶行銷及AI策略資深總監Yair Siegel則指出,AI結合視覺將會是2019年的主要應用。在2019年,可期待開始看到更多帶有AI功能的攝影機出現,它們的主要功能在於物體偵測和辨識,以降低當今產品的錯誤警報,並減少發送到雲端處理的數據(僅發送事件數據,不必發送所有數據)。
Siegel說明,這類應用的主要推動力是現有的產品逐步增進改良,例如門鈴攝影機、安全攝影機、邊境巡邏攝影機等產品,只要為它們增添更多一點智慧功能,就能在機器本身實現(On-device)偵測,提升設備的反應速度(在設備本身進行近端分析),從而發送較少的數據到雲端處理,或是改善錯誤警報的情況;而此一改變也可提升用戶體驗。
Siegel補充,臉部偵測和辨識由於受限於設備的處理能力,現今還有很多設備仍然是透過雲端處理或以NVR執行。OEM廠商因為成本和工作量方面的考量,升級硬體SoC對他們而言是一項挑戰。因此,只要更低成本的SoC出現,能協助他們以非常低的額外成本來實現更多的AI功能,這類型的應用很快就會發展起來。
資策會產業情報研究所(MIC)創新應用暨智慧服務研究中心資深產業分析師韓揚銘(圖1)則說明,在語音助理逐漸被消費者接受之後,已慢慢成為智慧家庭中樞,進而提升消費者對IoT+AI的使用體驗。如今,AI漸漸擴大至其他家電產品,像是冰箱、烤箱等,而除了消費者所熟悉的語音之外,也陸續有影像辨識方案,像是掃地機器人已開始搭載影像感測器,提升其對家庭環境的辨識能力,使其在清掃過程中不再遇到家具或是死角就「卡卡的」。
圖1 資策會MIC創新應用暨智慧服務研究中心資深產業分析師韓揚銘表示,在語音助理逐漸普及之後,AI應用開始朝向視覺化發展。
總結來說,AI在視覺相關的應用於2019年將持續成長。Khona認為,視覺應用加入AI後不僅能同時處理多部攝影機的輸入資料,還具備將其智慧化的功能。此外,2019年也將出現更多非視覺的AI應用,非視覺感測器產生的資料與視覺感測器的資料比例將逐漸走向40比60,不過目前的視覺感測器(如監控攝影機)仍然是資料的主要產生來源。
應用分眾化 AI晶片朝專用領域架構發展
AI應用如雨後春筍般冒出,邊緣運算的趨勢顯而易見,晶心科技總經理林志明(圖2)透露,AI+IoT兩者結合已是必然,且陸陸續續有許多應用已經實現,小從家庭生活中的智慧音箱、智慧家電、掃地機器人、門禁監控;大至無人機、自動駕駛車輛等,都是AIoT的概念,而這些應用都有著邊緣運算的概念。
圖2 晶心科技總經理林志明認為,AI+IoT已是大勢所趨,RISC-V需求也因而增加。
韓揚銘表示,硬體、軟體技術日新月異,在軟硬體效能持續提升之下,AI功能越來越容易在終端產品上實現;也因此,對於想要創造新應用,做出差異化的業者而言,會開始想方設法的將AI整合至現有和未來的系統與產品上。所以,AI的應用場景越來越分眾。
而AI分眾化的趨勢,也連帶影響運算晶片的發展。對此,工研院IEK曾指出,邊緣端運算晶片的發展將走向分眾專用化,未來不論是智慧音箱、無人機、機器人、AR/VR、智慧監控等新興應用,都將走向分眾專用晶片。例如在智慧手機市場,蘋果(Apple)所發表的A11 Bionic晶片、海思半導體的麒麟970晶片,三星及聯發科也預計推出相關Neural Engine SoC。
簡而言之,AI分眾化已然成為不可逆的趨勢,而AI晶片設計也有所變化,不再如過往一直探究的,究竟是CPU、GPU、FPGA或是ASIC哪種晶片適合AI應用,因應各種不同的應用場景,AI晶片的設計開始走向了所謂「領域專用架構(Domain Specific Architecture, DSA)」的概念。
DSA意指針對特定領域的需求屬性,打造客製化的運算架構。此一概念是由圖靈獎(Turing Award)得主John Hennessy與David Patterson提出。在摩爾定律(Moore's Law)逐漸面臨瓶頸的情況下,通用型處理器未來的效能發展,勢必會面臨困境。僅依靠製程的演進,越來越難大幅強化晶片的性能、功耗或面積。而未來晶片業者要如何提出效能更強的產品?John Hennessy與David Patterson認為要從架構上著手,而DSA將成為未來發展機會最大的方向。
例如RISC-V便是基於DSA概念而生,其發展在AI的推波助瀾之下持續攀升。林志明表示,RISC-V開放架構可以讓IC設計業者依照需要,進行「深入淺出」的設計。若要實現較複雜的應用,可以增加特用指令集,設計性能較高的模組;當然,也可以憑藉原有的指令集因應較為簡易的應用。簡單來說,RISC-V具備靈活、開放的特性,可讓設計者依照自身的需求,針對消費電子、IoT、工業、影像監控等應用,推出具AI運算的CPU;對於想要開發專有領域架構用CPU的廠商而言,也能縮短開發時程,並降低授權所需成本。
林志明透露,RISC-V的成長與AI息息相關,該公司旗下的RISC-V授權案件數也高速成長,包含中國、台灣等亞太市場及美國市場均廣為採用。從2018年到現在,RISC-V授權合約大約有30件,其中AI相關應用的案子約有13、14件(像是語音辨識、人臉辨識等),將近一半的比例。由此可見,在過去幾年IC設計業者認為,即便無法像NVIDIA或其他大廠成為AI領先者,但也會盡量將些許的AI技術融入到原本的應用之中,RISC-V需求因而明顯上揚。
靈活/多變架構隨之興起
另外像FPGA供應商賽靈思,也在這波AI分眾化的浪潮中積極轉型,致力於提供更靈活、開放的平台,從原本的元件供應商轉變成平台化解決方案開發與供應商。
賽靈思總裁暨執行長Victor Peng也曾於2018年的北京開發者大會上表示,AI應用和AI模型的使用數量成長的速度非常快,未來已經沒有一個架構可以滿足所有的應用需求;為此,該公司積極轉型,朝靈活、彈性的平台架構發展,並提出自行調適運算加速平台(Adaptive Compute Acceleration Platform, ACAP),運用FPGA彈性的特點滿足AI創新需求,期能打造靈活應變、萬物智慧的世界。
Khona則認為,AI晶片開發商未來面臨的主要難題在於適應AI領域的創新速度。業界於過去三年間累積可觀的創新成果,進步幅度超越之前五年的總和,而這五年間的進展更超過之前40年。由此能觀察出創新持續加速,但晶片的研發卻是個費時且耗費可觀資源的任務;因此,賽靈思藉由提供靈活應變的架構來解決此一挑戰。
韓揚銘進一步補充,簡單來說,現今AI晶片的規格發展主要由應用驅動。終端應用業者會依照自身應用場景開出所需的晶片規格。例如,目前智慧手機幾乎都有美肌功能,但要「美到何種程度」,各大手機製造商標準大不相同,因此對所需晶片的運算效能、規格也不一樣。所以,終端業者在AI晶片的選擇上,開始朝向「適合、適用」,而非一定要「最好、最強」。
總結來說,AI應用已朝分眾化發展,其晶片設計也不能依循過往思維,也就是一顆晶片適用所有應用場景的方式進行。AI處理器需保有彈性、靈活性與開放性架構,以滿足不同應用場景與終端產品;而處理器開發商跟軟體業者必須針對其鎖定的應用發展出最佳化的架構。
讓大眾買單AI 結合領域知識為當務之急
上述提到,AI應用開始走向多元化,各式創新應用逐漸興起,對於晶片設計製造商而言,除了要保持其產品靈活性、開放性之外,尋求各式合作夥伴,獲取更多領域知識(Domain Know-how)也成當務之急。
林志明說明,AI應用領域繁多,像是漁業、農業、金融、照護等。然而,要打造出符合市場需求的產品,硬體、軟體的技術發展固然重要,但同時也需這些應用領域的Domain Know-how協助,才能將獲得的資訊、數據資料發揮最大效用,研發出符合應用市場的產品/解決方案。晶片製造商或系統業者若只懂AI技術,沒有結合領域知識,自然無法讓所收集到的數據產生意義,也解決不了客戶的問題,其所設計、研發的產品當然沒辦法獲得市場青睞。
韓揚銘也認為,終端設備製造商導入AI不外乎是想做出市場差異化和提升消費者使用體驗。不過,現在販售AI產品,不能一昧強調其具有的「AI功能」,而是要結合「使用場景」。每個消費者的購買需求是很難用言語去描述的,與其不斷強調AI功能,不如從使用場景著手,好讓消費者感受到這是他們真正「會有需求」的產品或是應用,增加購買意願。
資策會MIC資訊電子產業研究中心資深產業分析師兼產品經理葉貞秀(圖3)則指出,不論是軟體業者、硬體供應商,或是新創廠商,都開始嘗試將AI結合各種不同的應用領域中。然而,這些業者無可避免的都會遇到系統、元件和應用場景該如何結合的挑戰,因為AI應用情景不斷推陳出新,且需求各不相同。可能不再像以往寫個程式,挑選通用的硬體元件(MCU、DSP等),簡單整合後就能滿足多數應用。因此,對於想要發展AI的業者而言,需找許多合作夥伴,經過不斷的溝通後,才可將產品AI化,提供客戶加值概念。
圖3 資策會MIC資深產業分析師兼產品經理葉貞秀說明,應用情景不斷推陳出新,系統/晶片業者需更多合作。
總歸來說,終端設備業者和系統業者開始將AI整合至旗下產品之中。然而,要實現AI應用,並非軟硬體技術齊備就行,結合領域知識也是其中一項關鍵,要想辦法「挖出」各領域的Domain Know-how,將這些知識收攏到AI科技當中,才不至於打造出「知其然,不知其所以然」的AI解決方案。
AI分眾態勢成台灣IC設計產業新契機
AI熱潮發展席捲全球,在AI應用呈現分散化的時代,台灣該如何搶搭此波AI浪潮?對此,資策會MIC副所長洪春暉指出,建議產業以點、線、面的方式進行布局,發展AI首重「資料」,而台灣科技產業聚落密集的特性正是台灣發展AI的優勢,應建立涵蓋不同領域的高品質、標籤化資料聚落,加速產業內人才、技術與資金流動。另外,可以運用「平台」或「開題解題」方式,匯集不同技術利基的成果,並以解決方案產品發展為目標,避免研發成果停留在實驗室或專案化階段。
葉貞秀則表示,AI已經擴散至消費性產品,包括家電、家用物聯網產品、通訊產品等,而未來的AI消費產品,必須聽得懂人類更複雜的語言與語意、看得懂更複雜的影像辨識,最後還要會判斷人類提出的需求。為此,AI晶片的規格也隨著各種應用不斷推陳出新,「異質多核架構(Heterogeneous...
運算力效能跳躍成長 專用型語音DSP設計嶄露頭角
AI語音服務越來越多樣化,例如化身家庭管家、私人主播,或營養管理師角色,為消費者提供即時又便利的服務,其背後AI演算法的運算能力更是不斷強化,進一步刺激專用型語音DSP的需求。
Cadence亞太區IP銷售總監陳會馨表示,AI語音辨識需求急速攀升,帶動IP相關產品的詢問度與訂單快速增加,同時也造成應用處理器(AP)設計產生改變,催生專用型語音DSP設計當道。
事實上,早期智慧音箱發展起飛時,內部大多採用Arm為基礎的CPU架構,但從2016年開始,許多晶片商為了滿足智慧語音識別處理所需的效能,開始研發專用的語音處理晶片,也開始導入語音DSP在其中。追根究柢,導致晶片設計改變,主要原因在於「運算能力需求的增加」。
眾所皆知,在智慧語音識別過程中,首先須要對進來的語音做前處理,此處理過程包含多麥克風陣列、遠場、波束增強、噪音消除等功能,這些技術對於在地端的運算能力有龐大要求,促使語音DSP技術於近兩年發展快速。換言之,過去可能是單一通道處理技術,如濾波的技術,演變至今,有許多神經網路技術也開始導入其中。
陳會馨指出,現有許多噪音辨識乃是透過人工智慧學習演算法,對原始資料進行分類,進而瞭解資料內部結構,該技術稱之為非監督式學習(Unsupervised Learning Network)。這種演算法的引進,對於晶片硬體的運算能力要求將會比過去AP晶片的要求高出許多,若採用舊有AP晶片技術,將難以滿足此類型技術的運算能力需求。
陳會馨分析,過去AP設計大多並未導入DSP設計,僅採用Arm基礎的CPU架構。雖然仍有部分廠商採用通用型DSP進行訊號處理,但相較於一顆專為語音辨識量身打造的語音DSP,後者能採取較低的工作頻率,完成AI語音所需的工作運算能力與技術規格要求,對於語音處理的效能也將相對提升。基於此,專用型語音DSP設計,無疑開啟另一波殺手級AI語音應用的關鍵推手。