三向直搗技術/智慧應用難關　聊天機器人起腳射門

2020 年 4 月 27 日

8935

時至今日，全球各地，從制定相關決策的政府機關，大型上市公司與夾縫求生存的中小企業，無一不提出數位轉型、扶植新創、組織創意轉型等方向。而此篇文章將試圖探討在現今的技術條件與市場期待心理下，是否能夠因為使用新技術、或者開闢新賽道進行聊天機器人的市場突圍？

聊天機器人無法滿足使用者期待

科技的快速發展來自人追求快速、方便的本性，但人類的想法與思緒十分複雜，因此聊天機器人難以全面滿足使用者的需求。回想日常生活的溝通情境，當人們在日常溝通的時候，除了說出口的字句，對方的肢體動作與眼神有沒有影響到自身的判斷？讀者是否會自行腦補一些情境？尤其跟老闆、同事或下屬進行具目的性的談判對話時，語句之外的線索顯得更重要。

聊天機器人不夠聰明的原因，是它距離人類多模態交互的能力還很遙遠。現今最普遍和流行的生活應用，當屬智慧音箱(如Amazon的Echo)，一般人在買回去的當下充滿興奮感，嘗試各種指令來挑戰智慧音箱的極限後，就將它放置在屋裡的某一角落，成為一個可有可無的家用品，無法實際融入使用者的生活情境中。即便仰賴大數據和人工智慧(AI)的相關技術持續更新，用戶體驗也漸入佳境，但仍缺乏具代表性的現象級App，無法滿足多數人的使用需求。另一方面，若人們嘗試降低自己對產品的期待，單純利用聊天機器人詢問明確的問題(如天氣)，請它做一件明確的事情(如播放音樂)，這樣的基本需求可以被滿足。

聊天機器人技術發展三向剖析

聊天機器人是一項技術整合的產物，其中牽涉的技術範圍有電腦視覺、自然語意、機器學習(Machine Learning, ML)與深度學習(Deep Learning, DL)等。本文根據市場調研機構Gartner所提供新興科技發展週期報告，來審視各個技術目前位處的位置、困境、與待解決的問題。

電腦視覺

電腦視覺(Computer Vision, CV)目前處於泡沫化的谷底階段，意即此技術無法滿足使用者的期待，導致大家對於它的創新了無興趣。CV從實驗室的前沿技術，到如今能夠聽懂人類的指令，花了整整半個多世紀，產生瞄準在新零售、醫療、工業製造和網路娛樂等應用的期待。然而，人工智慧情緒識別離開人類的干預，對複雜情感的理解和表達能力，仍須持續的技術突破。其中，利用AI判斷並理解實體環境的CV，不僅是辨識情緒的關鍵技術之一，也被公認為未來三至五年最重要的技術之一，不僅眾多新創企業投入，大企業也紛紛利用自己既有的優勢企圖先布局並搶占先機，現階段大約聚焦在下列4個發展方向：

1. 服務平台：提供機器學習開發工具和雲端服務的商業型平台，讓開發者毋需從頭自行建構。

2. 影音資料庫：利用海量資料進行機器學習的模型訓練，將使用者上傳的相片和影音資料，與個人特徵資訊進行連結，大量使用電腦視覺技術客製化廣告投放以增加營收。

3. 硬體製造：如NVIDIA、英特爾(Intel)的晶片製造。

4. 消費性產品：近期可期待者為手機人機互動的介面。

自然語意

自然語意(Natural Language Procession, NLP)與CV處於泡沫化谷底階段。自然語意發展分為兩大階段，一種是應用傳統的分詞執行自然語言處理，第二階段則是近年由於機器學習快速發展，大家開始應用機器學習執行NLP。透過NLP所能實現的功能包含神經機器翻譯(Neural Machine Translation)、智慧人機交互(就是所謂的聊天機器人，受限於技術，目前只能在特定場景實現多輪次的對話)、機器閱讀理解與機器創作。但如前言所述，現實狀況下，人與人當面溝通，仍會有語意上的誤解，在此情況下，如何期待科技可以奇蹟似地解決這一切？自然語言處理首先透過斷詞、理解詞，接下來是分析句子，包含語法和語義的自然解析這兩個步驟，再轉化為電腦容易處理與計算的形式。上述在處理時，需耗費大量的人力成本，除此之外，還牽涉建構者本身對於所屬領域的專業度、邏輯與理解能力(所謂的人工智慧訓練師)。此外，NLP毫無疑問的是一個未來巨大的市場，無論電腦視覺或是語音識別，想要實現更人性化的功能，就需要NLP的加持，同時可預期隨著NLP技術的不斷發展，將會逐漸呈現NLP、語音與視覺融合發展的趨勢。

機器學習/深度學習

機器學習與深度學習位處在過度期望的高峰階段，各方話題與議題熱度竄升。機器學習指的是可以從資料中歸納規則的方法，是第三波人工智慧發展的代表技術，而在眾多機器學習演算法中，深度學習則是近幾年成長最快，表現最好的技術。遺憾的是，截至目前為止，幾乎每個深度學習實踐者都認同的一件事是：深度學習模型數據效果有限。要實現真正的深度學習需要滿足下列三點，這三點可以協助讀者辨別此項技術到底是人工智慧還是科幻小說。

1. 大量的數據與活動：為了使神經網路能發現新的模型，就需要有大量的數據，這些數據可以透過反覆試驗來處理和分類。

2. 運算能力：假設已有一定量的有意義數據，則需要運算能力，所幸目前已有一系列更低成本的選擇，如微軟Azure等雲端託管服務。

3. 新的敏捷方法：最後，也是最重要的一點，需要採用新的敏捷方法思考和解決問題。

大型資料庫用於訓練精確模型的必要性已成為一個非常重要的問題，同時，需要低效的人工標注數據成為一個更大的挑戰。在當前的深度學習應用中，數據的問題無處不在，由於建基於大規模數據，當滿足所需環境和約束條件時，這些系統會產出令人驚豔的成果；但若不符合上述場景，它也可能完全失效。舉例來說，若有人試圖解決大量翻譯或無人駕駛的問題，則需花很長時間來思考重要數據中的所有因素，需先建構演算法，而在過程中有很高的失敗機率。雖說如此，深度學習和先進模型的興起仍是一次革命性的進步，加速了那些針對以前無法解決的問題之技術解決方案出現，在思維上邁出重要的一步。

聊天機器人短期內破局可能性具困難度

產業中的廠商若以業務角度分析，主要分為三類：

1. 2C公司：產品直接面對用戶，如Amazon的Echo，由於未能滿足人類對於AI的美好想像，距離規模化應用上有大段距離。

2. 2B公司：如金融領域的智慧監管系統、醫療領域的醫療問答和診斷助理等。但是實際效果仍牽涉上述自然語意建構的縝密度，與場景應用設計的順暢度而有不同。

3. 2G公司：為面向政府執行行政業務類的知識庫建構和問答業務，如政府服務大廳的引導型聊天機器人、一站式辦公機器人等。

從生態系統來看，聊天機器人可分為產品，框架(Framework)和平台三類；其中框架是為了加速產品的研發，以SDK或SAAS服務的型態，提供有市場敏感度，或創意點子的需求者可快速架構特定場景和領域的聊天機器人。

短期若要大規模地拓展市場，恐怕有一定的困難度，除非在上述的關鍵技術中突然有突破口，縱然如此，各式場景應用與垂直深化探索仍不斷地激起人們對未來的想像。相信未來的聊天機器人與虛擬生命，將會以更好的體驗和型態呈現在人們面前。

(本文作者任職於優拓資訊)

聊天機器人無法滿足使用者期待

聊天機器人技術發展三向剖析

電腦視覺

自然語意

機器學習/深度學習

聊天機器人短期內破局可能性具困難度

Related posts:

最新文章

熱門文章

編輯推薦