1
| 本文作者: 李尊 | 2016-08-22 20:51 |
本文聯合編譯:Blake、高斐
雷鋒網注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛頓 )是一位英國出生的計算機學家和心理學家,以其在神經網絡方面的貢獻聞名。辛頓是反向傳播算法和對比散度算法的發明人之一,也是深度學習的積極推動者,目前任職于多倫多大學與Google。作為人工智能領域的三位奠基人之一,早在30年前,辛頓就已經在深度學習領域留下了自己的烙印。然而,直到計算機的性能達到深度學習的要求,辛頓才開始在學術界以外得到自己應得的廣泛認可,本文是他對于深度學習介紹的演講PPT。


深度學習
Geoffrey Hinton
多倫多大學&Google

機器學習任務的頻譜
典型的統計學方法
低維度數據(例如,低于1000個維度)
數據中存在大量的噪音
數據不存在健全的結構, 一個極簡模型如何表示數據結構
主要問題在于區分真正結構與數據噪音
人工智能(AI)
高維度數據(例如,多于1000個維度)
如果合理處理噪音,噪音不足以模糊數據的內在結構。
數據中有龐大得結構,數據結構過于復雜,難以用一個簡單的模型表示。
主要問題在于弄清楚如何表示復雜的數據結構,使得這種結構易于學習

深度學習簡要發展史
用于學習多層非線性特征的反向傳播算法于20世紀70年代和80年代被提出來并得到多次發展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
當時,反向傳播算法具有廣闊的應用前景,然而,到20世紀90年代,機器學習領域的眾多研究者開始停止運用該算法,原因如下:
—該算法不能有效利用多數隱藏層(除了其在“時延”和卷積網的應用)。
—該算法不能在遞歸網絡中發揮有效作用。

如何學習多層特征(~1985)
運用反向傳播錯誤信號以獲得用于學習的衍生工具:
首先輸入輸入信息向量,通過隱藏層,最終得到輸出結果,對比輸出結果與正確答案得到錯誤信號。

隨機梯度下降
計算少量隨機“小批量”訓練數據的所有權重值的梯度矢量。
—這將對所有訓練數據的梯度矢量進行隨機評估。
—若權重值完全出現錯誤,即便獲得一個耗費多,精確地估計值也是無意義的。
略微減小梯度估計值,以更新所有權重值。
—與其他更好地方法相比,這種原始的優化方法能夠在大數據集中發揮更好的作用。

反向傳播算法到底是哪里出錯了?——20世紀90年代的觀點
反向傳播算法需要大量的標記過的訓練數據
— 幾乎所有的數據都是未經標記的。
反向傳播算法未能規劃好學習時間
— 在存在眾多隱藏層的網絡中,該算法學習速度非常慢。
在局部優化過程中,反向傳播算法會出現卡殼現象
— 該算法通常能夠得到極好的運用,但是從來沒有極好的理論。

運用無監督學習方式,克服反向傳播算法的局限性
保持運用梯度方法的有效性與簡潔性,以調整權重值,同時運用這種方法為感官輸入信息構建結構。
— 調整權重,保證一個生成模型生成感官輸入信息的最大可能性。
— 學習圖像,而非標記過的圖像。
如果你想要從事計算機視覺領域的研究,首選學習計算機制圖法。
我們應當學習哪種生成模型?

隨機二進制單位(一種奇數選擇方法)

受限玻爾茲曼機
限制層與層之間的連接性,使學習變得更為簡單。
—只有一層隨機二進制隱藏單元。
—隱藏層之間無連接。
在受限玻爾茲曼機中,鑒于可視狀態,隱藏層之間存在有條件相互獨立關系。
— 當存在一個既定的數據矢量,我們能夠快速從后驗分布中獲取一個無偏差樣本。

受限玻爾茲曼機最大可能性學習算法圖
由可視單元的一個訓練矢量V開頭。
在更新所有平行隱藏單元與更新所有平行的可視單元之間轉換。

快速學習受限玻爾茲曼機的方法
由可視單元的一個訓練矢量開頭
更新所有平行的隱藏單元
更新所有平行的可視單元,以實現重構
再次更新隱藏單元
旁白
通過對運用兩種不同方法獲得的預測值取平均數,Netflix 能夠預測出你對一部電影的喜愛程度。
其中的一種方法使用經過快速近似學習算法的一種算法版本訓練的受限玻爾茲曼機。
這是受限玻爾茲曼機的首次重大應用。

訓練深度網絡(受限玻爾茲曼機飽受歡迎的主要原因在于的到蓋茨比基金的支持)
首先訓練直接從像素中獲取輸入信息的特征層。
接著,將這些講過訓練的特征視為像素,激活這些特征,在第二隱藏層學習這些特征的特征。
如此便生成一個多層生成模型。
每當我們添加一個特征層,便能夠得到訓練數據的對數概率一個更好的可變下限,這一點可以得到證實。
這一證明過程是非常復雜的(但是對于學術界同仁之間相互尊重極為重要)。

精細調整,以實現區分這一目的
預訓練:首先,一次只學習一個特征層,不使用標記過的信息。
精細調增:增添最后一個標記單元層,反向計算標記單元的誤差,以便精細調整那些在無監督前期訓練階段學會的特征。
這種精細調整方法能夠克服標準反向傳播算法的兩個主要局限性。
因為未經標記數據而發現好的特征,我們要求使用更少的標記。
由于在預訓練過程中,一次僅訓練一層,并且是從可感知的特征進行精細調整的,學習速度變得越來越快。

為預訓練深層神經網構建聲學模型
在使用雙手機模型的標準后期處理之后,獲得23.0%的手機錯誤率。
TIMIT之前獲得最優結果為24.4%,這便要求對幾個模型的結果取平均值。
通過較短時間的前期處理,現在我們在這一塊兒能夠做的更好。

接下來會發生什么
當預訓練深層神經網絡的性能優于在MSR演講組一致推崇的高斯混合模型,IBM與Google對這類深層神經網絡實行進一步發展。
直至2012年,安卓系統的聲音搜索功能便是運用一個基于深層神經網絡的聲學模型。
現在所有起到領導作用的團隊均使用神經網絡,這一技術正在向性能越來越好的遞歸神經網絡發展。

圖像網的ILSVRC-2012競爭
擁有120萬高分辨率訓練圖像的數據集。
1000種不同類別的物體。
任務是在前5次猜測中猜出“正確”的。
在這個數據集中,對現有的一些計算機視覺方法進行測試。
2012年的計算機視覺系統使用運用手工工程的復雜的多層系統。
早期階段主要通過優化一些參數得到調整。

ILSVRC-2012競爭的錯誤率
2015年深層卷積神經網 5%
多倫多大學(Krizhevsky等,2012) 16%
東京大學 26%
牛津大學(Zisserman 等) 27%
INRIA(法國國家科學院)與XRCE(歐洲施樂研究中心) 27%
阿姆斯特丹大學 29%

針對Imagenet的神經網絡
Alex Krizhevsky等在NIPS 2012開發了一個非常深的卷積神經網絡(Le Cunn 1987),它的架構包括:
l 7個隱藏層(不包括最大池化層)
l 早期的層級是卷積的
l 最后兩層是全局相連的
激活函數是每個隱層的修正線性單元
這些訓練速度快得多,且比邏輯單元要更具表現力
全局連接層擁有最多的參數
Dropout用來防止這些層級過擬合

在測試集上的樣本(以及神經網絡猜測結果)
獵豹(豹 雪豹 埃及貓)
高速列車(小轎車 地鐵 電車)
放大鏡(剪刀、放大鏡、煎鍋、聽診器)

修正線性單元
使用邏輯彎曲而非線性神經進行修正
y = max(0,x)
這種非線性使得深度網絡更易訓練,在處理真實值的時候也表現的更好。

Dropout:平均多個大型神經網絡的有效方式
設想一個包括一個隱層的神經網絡
每次提出一個訓練樣本時,隨機以0.5的可能性省略一個隱藏單元
因此我們隨機從2^H不同的架構中取樣
所有的架構權重相同

Dropout作為一種模型平均形式
我們從2^H模型取樣。只有一部分模型層級訓練過,且它們只訓練過一個樣本。
權重共享意味著它們中每個模型都是十分正則化的
這比試著將權重保持在較少狀態更能實現好的正則化

在測試的時候我們做些什么?
我們能對許多不同的架構進行取樣,然后在它們的輸出分布中取幾何平均數。
能用上所有的隱藏單元更好,但是要將它們的輸入權重減半
這恰好計算了所有2^H模型預測的幾何平均數
在有更多的隱層的情況下,測試時期將權重減半是唯一一種模型平均的近似值,但是它得到結果不錯

1986年提出的方向傳播算法哪里錯了?
關于它為什么失敗,我們得出的結論都錯了。真正的原因是:
1. 我們的標記數據集太小了。(幾千倍的差異)
2. 我們的運算能力太慢了。(百萬倍的差異)
3. 我們進行權重初始化的方式錯了。
4. 我們使用了錯誤的非線性類別。
幾年前,Jeff Dean認為如果計算能力足夠的話,神經網絡也許能夠做到一些非常了不起的事情。
他建立許多架構讓一些大型神經網絡在Google的數據中心核心區塊上進行訓練。

卷積神經網絡(部分復雜細節已略去)
有關卷積網絡最好的類型可以去查看Hochreiter和Schmidhuber于1997年發布文章的細節。

卷積神經網絡
卷積神經網絡十分強大,因為它們結合了兩種特性。
l 分布式隱層允許它們有效存儲之前的信息
l 非線性動態允許它們以復雜的方式更新隱層
l 深度越深,性能更好

機器翻譯的一種全新方式(Suskever, Vinyals和Le,2014)
針對每種語言,我們都有一個深度編碼器RNN和一個深度解碼器RNN
針對原始語言的編碼器RNN按照語句中文本順序進行閱讀
它最終的隱層表示的就是語句所要表達的含義。

針對翻譯分布的一個解碼器RNN
首先它輸出的是可能的首個單詞的概率分布
我們在這個分布中選取一個單詞,然后將它反饋到RNN中最為一個輸入
給定首個單詞,RNN指定第二個單詞的分布
繼續進行,直到選完
在訓練期間,我們只需要輸入“正確”的單詞。

編碼器和解碼器網絡是如何訓練的
給定一個句型組,使用反向傳播來最大化產生特定翻譯的對數可能性
目前這個系統只訓練過一組語言
該系統已實現在該數據上的最佳水準
該系統大約需要一年來開發
如果我們使用更多的數據,并且同時對多種語言共同進行訓練編碼器和解碼器的話,它的表現會好的多
歐洲的議會給出了25種方式,我們可以通過所有的25中解碼器進行反向傳播。

結合視覺和語言(Vinyals等近期工作的簡單介紹)
在imagent上訓練的深度卷積網絡種最后一個隱層的活動向量是能編碼圖片中內容的“認知”
將認知規劃到深度卷積神經網絡的初始隱層
訓練RNN來輸出它在圖片中看到了什么
使用一個擁有20萬張圖片(每張圖片有幾個注釋)的數據集
不再重復訓練卷積神經網絡

一群人在一個戶外市場購物
(人們蜷縮圍繞著一家開放市場)

一個抱著填充動物玩具的孩子特寫
(一個小女孩睡在沙發上,抱著一個玩具熊)

文本處理的意義
一旦我們能將一句話轉化成一個思想向量,那么一篇文本也能變成一系列的思想向量。
在接下里的幾年里,人們將使用深度RNNs來學習對思想向量序列進行建模。
這將捕獲自然推理過程
它應該能讓我們理解文本要表達的含義
我們可能需要數十億的神經元以及百億級的參數才能實現人類的理解水平。

經典AI的意義
對于物理學家來說光波必須通過以太來進行傳播
他們認為沒有其他的可能性
對于AI研究學者來說人們必須使用正式的推理規則來通過一個一個論點來傳播含義
他們認為沒有其他的可能性
神經網絡內部的編碼器與解碼器沒有符號專門用來針對機器翻譯
唯一的符號是輸入和輸出
也許處理符號串不是通過操作內部符號串來實現的
處理像素陣列絕對不是通過操作內部像素來實現的

深度學習是從哪里來的?
所有的主要思想和幾乎全部的實踐成果都是來源于基于興趣的研究。(Gatsby基金十分重要)
目標在于鼓勵翻譯研究的政府資助也對發展深度學習科學技術有小部分貢獻
公司擅長于開發新的想法理念
長遠來看,好的想法理念卻是真正的瓶頸
因此給予大學基礎結構來發展真正的想法理念
PS : 本文由雷鋒網編譯,未經許可拒絕轉載!
via Geoffrey Hinton
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。