0
| 本文作者: 李尊 | 2016-08-25 20:45 |
本文聯合編譯:Blake、高斐
雷鋒網注:Yoshua Bengio教授是機器學習大神之一,尤其是在深度學習這個領域,他也是人工智能領域中經典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio連同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度學習復興。他的研究工作主要聚焦在高級機器學習方面,致力于用其解決人工智能問題。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一(蒙特利爾大學),本文是他在2009年的經典前瞻演講——“人工智能學習深度架構”有關內容的第一部分。


Yoshua Bengio 蒙特利爾大學
主要內容:“人工智能學習深度架構” 
在視覺和自然語言處理任務中打敗了淺層神經網絡(shallow neural network)
在像素級視覺任務中打敗了支持向量機(SVMs)(同時能處理自然語言處理問題中SVMs不能處理的數據大小)
在自然語言處理領域中實現了當下最好的表現
在無監督狀態下打敗了了深度神經網絡
學會了視覺特征(和V1和V2神經元類似)

大腦擁有深度架構
人類是分層級進行思考的(通過構筑一些簡單的概念)
深度不夠的架構其效率也成倍降低
分布式表征(可能是稀疏的)對于實現非局部泛化來說是有必要的,比1-N枚舉潛在變量值有效得多
多層級的潛在變量允許統計強度的共享組合

豎軸為預測f(x),橫軸為測試點x

較少變量情況下較為簡單
紫色曲線代表真實未知運算
藍色曲線代表已學會的運算:其中預測= f(x)

1維時——10個位置(position)
2維時——100個位置(position)
3維時——1000個位置(position)
要實現局部概覽,需要對所有的可能變量進行樣本表征。

理論:高斯內核機器至少需要k個樣本來學會一個運算(在某些線上有2k個零交叉點)
理論:對于高斯內核的機器來說,對多種函數在維度上進行訓練需要跨維度樣本

位圖圖像的旋轉變換(rotation transformation of a bitmap image)
局部線性補丁與流形相切 local linear patches tangent to the manifold
收縮變化(shrinking transformation)
原始輸入向量空間(raw input vector space)

組合性:在表征能力上指數增益
分布表征(Distributed representations)
深度架構(Deep architecture)

許多神經元是同時活動的
輸入代表了一系列特征(不互相獨立)的活動
比局部表征更有效(指數級)

局部式分區:通過已學會原型進行分區
分布式分區:子分區1、子分區2、子分區3

大腦使用的是分布式表征
大腦也是深度架構
大腦重度使用無監督學習
大腦傾向于學習更簡單的任務
人類大腦通過社會/文化/教育進行發展

V4區域——更高層次的視覺抽象
V3區域——初級的形狀檢測器
V2區域——邊緣檢測器
視網膜——像素

人類會有層次的組織他們的想法和概念
人類首先學習一些更簡單的概念,然后將這些組合起來去表征更復雜抽象的概念
工程師將解決方案分為多層次的抽象和處理
想要學習/發現這些概念
示例:
由圖片(男人坐在地上)——原始輸入向量表征——稍微高階的表征——中間層級等——相當高階的表征(男人、坐)

想要更接近人工智能的話,更好地推廣新的任務是至關重要的。
深度架構能學會良好的中間表征(能在任務間共享)
一個良好的表征對于許多任務來說是有意義的
原始輸入x——共享中間表征h——任務1、2、3(y1、y2、y3)

不同的任務能共享同樣的高階特征
不同的高階特征能從同樣的低階特征組中建立
更多的階層=在表征效果上指數級增加
低階特征——高階特征——任務1-N(輸出y1-yN)

元素集(*、sin、+、-)——輸入(x、a、b) 輸出(*) 深度=4
元素集(神經元、神經元、神經元)—— 深度=3

2層(邏輯閘、正式的神經元、RBF單元)=通用逼近器
所有的3個原理(Hastad et al 86 & 91, Bengio et al 2007)
使用k層緊密表征的運算可能需要k-1層的指數級別

深度架構中共享組件
用共享組件表示的多項式:深度的優勢可能指數級增長

深度架構具有強大的表征能力
如何對它們進行訓練?

在2006年前,訓練深度架構都未成功過(除了卷積神經網絡以外)
Hinton, Osindero & Teh ? A Fast Learning Algorithm for Deep Belief Nets ?, Neural Computation, 2006
Bengio, Lamblin, Popovici, Larochelle ? Greedy Layer-Wise Training of Deep Networks ?, NIPS’2006
Ranzato, Poultney, Chopra, LeCun ? Efficient Learning of Sparse Representations with an Energy-Based Model ?, NIPS’2006

堆棧受限玻爾茲曼機(RBM)——深度信念網絡(DBN)——監督深度神經網絡

每層輸出向量
給定輸入x輸出層預測目標變量Y的參數分布

輸出:示例——多項式和softmax輸出單元的多類分類
基于梯度優化的訓練準則,包括條件對數擬然訓練等

AISTATS’2009
橫軸代表測試錯誤,豎軸代表計數
藍色為不帶預訓練 橙色為帶預訓練

橫軸為層級數目,豎軸為測試分類錯誤

玻爾茲曼機
馬爾可夫隨機場
隱藏變量更有趣

最流行的深度架構構件
雙向無監督圖形模型

能預測可見單元的子集y(給定其他的x)
如果y只得到很少的值
Gibbs取樣

添加一個隱藏單元(與適當的參數選擇)保證了增加的可能性
擁有足夠的隱藏單元,能夠完美地模擬任意離散分布
有nb級隱藏單元的RBMs= 非參數(non-parametric)
Optimal training criterion for RBMs which will be stacked into a DBN is not the RBM likelihood



分區1、分區2、分區3

P(h|x) 和 P(x|h) 因式分解——簡單推理、方便的Gibbs取樣

在實踐中,Gibbs取樣并不總是很好的混合。
在MNIST上通過CD訓練RBM
隨機狀態的鏈
真正的數字鏈

自由能量= 邊緣化時的等效能量
在RBMs中能被精確、有效地計算
邊際似然p(x)追溯到高劃分函數Z



梯度有兩個成分——正相、負相
在RBMs中,容易取樣或者在h|x 中求和
不同的部分:使用馬爾可夫鏈從P(x)中取樣

對比發散(CD-k):負相Gibbs鏈觀察x,運行k Gibbs步驟
持續對比發散(PCD):當權重緩慢變化時在背景中運行負相Gibbs鏈
快速持續對比發散(Fast PCD):兩組權重,有用大量學習率的只用于負相,快速探索模式
集群:確定性近混沌動力系統定義了學習和采樣
退火MCMC:使用更高的溫度來逃避模式

對比發散(CD-k):從負相區塊開始Gibbs鏈觀察x,運行k Gibbs步驟(Hinton 2002)

當權重緩慢變化時在背景中運行負相Gibbs鏈(Younes 2000, Tieleman 2008):
保證(Younes 89, 2000; Yuille 2004)
如果學習率以1/t 減少
在參數變化太多之前鏈進行混合
當參數變化時,鏈保持收斂

在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。

在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。

在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。

取樣過程中,利用參數快速變化(高學習效率)時獲得的極快速集群效應。
快速PCD:兩組權重值,其中之一對應高學習效率,只用于逆相,能夠快速轉換模式。
集群(參見Max Welling在ICML,UAI及專題演講會上的講話):0度MRFs和RBMs,快速計算權重值。

O度MRF的狀態S,權重為W
全面觀察的案例,觀察所得結果為,在動態系統與W一直發生變化。
只要W保持不變,即使取最大近似值,樣本的統計結果仍將與數據統計結果相匹配。

該狀態的隱層s = (x,h)
二項式狀態變量
統計值f
在正相位中,給定輸入信息x,優化隱層h
在實踐操作中,利用RBM(受限玻爾茲曼機)結構,能夠實現函數值最大化。


取消模型與采樣程序兩者間傳統意義上的徹底分離
考慮將自適應程序與充當生成模型的一個采樣程序相結合所產生的整體影響
采樣結果可以通過以下步驟得到評估(不參考某種潛在的概率模型)
高溫退火有助于估計對數似然值
考慮不同溫度條件下的多重鏈及鄰近鏈之間的可逆交換
較高溫度鏈能夠不受模型的限制
模型取樣是從T=1開始
總結:本文中主要提到了有關深度架構、神經網絡、玻爾茲曼機等相關內容,以及為什么將它們應用到人工智能領域中的原由。作為 Yoshua Bengio在2009年的演講,它是相當具有前瞻性的。在后續部分中, Yoshua Bengio也提到了DBN、無監督學習等有關理念及實踐過程,請繼續關注我們的接下來的第二部分內容文章。
PS : 本文由雷鋒網編譯,未經許可拒絕轉載!
via Yoshua Bengio
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。