LSTM演算法
圖1就是大名鼎鼎的長短記憶模型(Long Short-Term Memory, LSTM),也是遞迴神經網路(Recurrent Neural Networks, RNN)中最受歡迎的一種形式。它最早是由Sepp Hochreiter於1991發表原型,然後Jürgen Schmidhuber於1997將該理論基礎大功告成。沒錯!LSTM是個快要30歲的老演算法了,它也是被Hinton發展出的深度學習最佳化方法救活的一票演算法之一。
LSTM最大的好處在於它解決了遞迴神經網路容易發生的梯度爆炸以及梯度瀰散問題,它使用了稱之為「門控(Gate)」的機制,可以學習開啟或是關閉的時機,來控制上下文向量(Context Vector)的流動。LSTM總共有3個門控,分別是輸入門、遺忘門以及輸出門。輸入門負責管理新數據是否該納入,而遺忘門負責管理哪些舊數據該遺忘,輸出門則管理哪些上下文該納入輸出。所以,對女孩子說他的遺忘門總是關著,正是表達永不遺忘的最高禮遇。
Faster RCNN演算法
Faster RCNN(圖2)是由被粉絲們暱稱為RGB的Ross B. Girshick所發表。自2013年起發表的RCNN三部曲包含RCNN、Fast RCNN以及Faster RCNN。最終版本Faster RCNN於2015發表,是精確率最高的物體檢測演算法之一;但可惜它是先定位,再分類的兩階段模型,所以速度不高。
物體檢測就是不但要知道照片裡有什麼(物體識別),還需要把它框出來(物體檢測)。Faster RCNN使用了Region Proposal Network,解決了過去算法中以人工方式產生大量候選位置區域(Proposal)的問題;並改用預埋的不同尺寸Anchor,來解決物體不確定尺寸大小與比例的問題。所以,不管天涯海角,Faster RCNN都能把妹的位置給檢測出來。
Auto-Encoder演算法
Auto-Encoder(圖3)是最古老的深度學習結構之一。它是一個漏斗型的結構,讓高維度數據逐步被降維,到了最窄處,再逐步升維,並且要求輸入必須等於輸出。這意味著最窄處被極致降維的結果必須包含重建原始高維數據的一切必要訊息。我們稱這樣的高度壓縮向量為表徵(Representation)或者是嵌入(Embedded),這也是深度學習壓縮演算法的核心網路結構,由於它沒有依賴任何外部標籤,因此被歸屬為標準的非監督式學習。所以只要看過妹的一顰一笑,它就能夠取得表徵,然後完整重現。
WaveNet演算法
WaveNet(圖4)是來自於Deepmind的得意之作,它也是目前聲音生成模型的SOTA(State-of-The-Art)。WaveNet可以模仿人類或者是各種樂器的聲音,他的模仿能力甚至連人類講話時特有的換氣呼吸聲都可以模仿。
WaveNet的本質是一個一維空洞卷積,一般我們用二維卷積處理二維的影像數據,那麼一維的聲音數據當然要用一維卷積。至於空洞卷積(Dilation)則是一種特殊卷積型態,它可以有效地在不增加訓練參數的狀況下,擴大每個卷積的感知域,這樣就可以從細節到大趨勢的捕捉聲音特性。所以當然忘不了妹的聲音。
Deep Belief Network演算法
學深度學習的人千萬不能不知道什麼是深度信念網路(Deep Belief Network),它是深度學習三大神之首Hinton發展深度學習理論時的第一個深度學習網路(圖5)。所以,我也借用它作為我在大陸創業的公司名字Deepbelief.ai。
深度信念網路每一層都是受限波茲曼機(Restricted Boltzmann Machine, RBM),Hinton拿它來做語音識別以及人臉識別,在那時都獲得巨大的成功。這是神級的深度信念,妹怎能不感動。
DenseNet演算法
DenseNet(圖6)可以說是這類使用了跳轉連接(Skip Connection)的卷積神經網路中的超級進化版,每一個稠密單元(Dense Block)中,每一層卷積神經層除了來自上一層傳送的特徵外,在之前的「每」一層都會透過跳轉連接將特徵直送,這樣保證重要特徵絕不丟失,所以超級珍惜與妹在一起的所有回憶。
Attention演算法
深度學習三大神之一的Yoshua Bengio首次將注意力機制(Attention)運用在機器翻譯中,它模仿人類閱讀文字的習慣,先逐字讀取後,會將注意力放在特定的詞彙以產生正確翻譯結果,注意力機制可以衡量特別詞彙的重要性(圖7)。若是注意力一直在她身上,多麼深情的執著。
152-Layers ResNet演算法
由微軟亞洲研究院的兩大男神孫劍與何愷明聯手發表的ResNet,在2015年利用了一百五十二層前所未有的超深卷積神經網路獲得了該年ImageNet的冠軍,而且以僅有3.57%的物體識別錯誤率,終於在視覺領域上擊敗人類。一百五十二層殘差神經網路,沒有最深,只有更深(圖8)。
ResNet演算法
殘差神經網路(ResNet)利用了跳轉連結傳遞梯度,逐層優化輸出值與實際值之間的差異(殘差),可以有效地傳遞梯度避免梯度瀰散,也成為現在最主流的卷積神經網路骨幹架構(圖9)。