深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

本文作者：李尊

2016-08-22 20:51

導(dǎo)語：Geoffrey Everest Hinton是反向傳播算法和對比散度算法的發(fā)明人之一，也是深度學習的積極推動者，本文是他對于深度學習介紹的演講PPT。

本文聯(lián)合編譯：Blake、高斐

雷鋒網(wǎng)注：Geoffrey Everest Hinton（杰弗里·埃弗里斯特·辛頓）是一位英國出生的計算機學家和心理學家，以其在神經(jīng)網(wǎng)絡(luò)方面的貢獻聞名。辛頓是反向傳播算法和對比散度算法的發(fā)明人之一，也是深度學習的積極推動者，目前任職于多倫多大學與Google。作為人工智能領(lǐng)域的三位奠基人之一，早在30年前，辛頓就已經(jīng)在深度學習領(lǐng)域留下了自己的烙印。然而，直到計算機的性能達到深度學習的要求，辛頓才開始在學術(shù)界以外得到自己應(yīng)得的廣泛認可，本文是他對于深度學習介紹的演講PPT。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習

Geoffrey Hinton

多倫多大學&Google

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

機器學習任務(wù)的頻譜

典型的統(tǒng)計學方法

低維度數(shù)據(jù)（例如，低于1000個維度）
數(shù)據(jù)中存在大量的噪音
數(shù)據(jù)不存在健全的結(jié)構(gòu)，一個極簡模型如何表示數(shù)據(jù)結(jié)構(gòu)
主要問題在于區(qū)分真正結(jié)構(gòu)與數(shù)據(jù)噪音

人工智能(AI)

高維度數(shù)據(jù)（例如，多于1000個維度）
如果合理處理噪音，噪音不足以模糊數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
數(shù)據(jù)中有龐大得結(jié)構(gòu)，數(shù)據(jù)結(jié)構(gòu)過于復(fù)雜，難以用一個簡單的模型表示。
主要問題在于弄清楚如何表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，使得這種結(jié)構(gòu)易于學習

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習簡要發(fā)展史

用于學習多層非線性特征的反向傳播算法于20世紀70年代和80年代被提出來并得到多次發(fā)展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
當時，反向傳播算法具有廣闊的應(yīng)用前景，然而，到20世紀90年代，機器學習領(lǐng)域的眾多研究者開始停止運用該算法，原因如下：

—該算法不能有效利用多數(shù)隱藏層（除了其在“時延”和卷積網(wǎng)的應(yīng)用）。
—該算法不能在遞歸網(wǎng)絡(luò)中發(fā)揮有效作用。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

如何學習多層特征(~1985)

運用反向傳播錯誤信號以獲得用于學習的衍生工具：

首先輸入輸入信息向量，通過隱藏層，最終得到輸出結(jié)果，對比輸出結(jié)果與正確答案得到錯誤信號。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

隨機梯度下降

計算少量隨機“小批量”訓(xùn)練數(shù)據(jù)的所有權(quán)重值的梯度矢量。

—這將對所有訓(xùn)練數(shù)據(jù)的梯度矢量進行隨機評估。
—若權(quán)重值完全出現(xiàn)錯誤，即便獲得一個耗費多，精確地估計值也是無意義的。

略微減小梯度估計值，以更新所有權(quán)重值。

—與其他更好地方法相比，這種原始的優(yōu)化方法能夠在大數(shù)據(jù)集中發(fā)揮更好的作用。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

反向傳播算法到底是哪里出錯了？——20世紀90年代的觀點

反向傳播算法需要大量的標記過的訓(xùn)練數(shù)據(jù)

— 幾乎所有的數(shù)據(jù)都是未經(jīng)標記的。

反向傳播算法未能規(guī)劃好學習時間

— 在存在眾多隱藏層的網(wǎng)絡(luò)中，該算法學習速度非常慢。

在局部優(yōu)化過程中，反向傳播算法會出現(xiàn)卡殼現(xiàn)象

— 該算法通常能夠得到極好的運用，但是從來沒有極好的理論。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

運用無監(jiān)督學習方式，克服反向傳播算法的局限性

保持運用梯度方法的有效性與簡潔性，以調(diào)整權(quán)重值，同時運用這種方法為感官輸入信息構(gòu)建結(jié)構(gòu)。

— 調(diào)整權(quán)重，保證一個生成模型生成感官輸入信息的最大可能性。
— 學習圖像，而非標記過的圖像。
如果你想要從事計算機視覺領(lǐng)域的研究，首選學習計算機制圖法。

我們應(yīng)當學習哪種生成模型？

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

隨機二進制單位（一種奇數(shù)選擇方法）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

受限玻爾茲曼機

限制層與層之間的連接性，使學習變得更為簡單。

—只有一層隨機二進制隱藏單元。
—隱藏層之間無連接。

在受限玻爾茲曼機中，鑒于可視狀態(tài)，隱藏層之間存在有條件相互獨立關(guān)系。

— 當存在一個既定的數(shù)據(jù)矢量，我們能夠快速從后驗分布中獲取一個無偏差樣本。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

受限玻爾茲曼機最大可能性學習算法圖

由可視單元的一個訓(xùn)練矢量V開頭。
在更新所有平行隱藏單元與更新所有平行的可視單元之間轉(zhuǎn)換。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

快速學習受限玻爾茲曼機的方法

由可視單元的一個訓(xùn)練矢量開頭
更新所有平行的隱藏單元
更新所有平行的可視單元，以實現(xiàn)重構(gòu)
再次更新隱藏單元

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

旁白

通過對運用兩種不同方法獲得的預(yù)測值取平均數(shù)，Netflix 能夠預(yù)測出你對一部電影的喜愛程度。
其中的一種方法使用經(jīng)過快速近似學習算法的一種算法版本訓(xùn)練的受限玻爾茲曼機。

這是受限玻爾茲曼機的首次重大應(yīng)用。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

訓(xùn)練深度網(wǎng)絡(luò)（受限玻爾茲曼機飽受歡迎的主要原因在于的到蓋茨比基金的支持）

首先訓(xùn)練直接從像素中獲取輸入信息的特征層。
接著，將這些講過訓(xùn)練的特征視為像素，激活這些特征，在第二隱藏層學習這些特征的特征。

如此便生成一個多層生成模型。

每當我們添加一個特征層，便能夠得到訓(xùn)練數(shù)據(jù)的對數(shù)概率一個更好的可變下限，這一點可以得到證實。

這一證明過程是非常復(fù)雜的（但是對于學術(shù)界同仁之間相互尊重極為重要）。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

精細調(diào)整，以實現(xiàn)區(qū)分這一目的

預(yù)訓(xùn)練：首先，一次只學習一個特征層，不使用標記過的信息。
精細調(diào)增：增添最后一個標記單元層，反向計算標記單元的誤差，以便精細調(diào)整那些在無監(jiān)督前期訓(xùn)練階段學會的特征。
這種精細調(diào)整方法能夠克服標準反向傳播算法的兩個主要局限性。

因為未經(jīng)標記數(shù)據(jù)而發(fā)現(xiàn)好的特征，我們要求使用更少的標記。

由于在預(yù)訓(xùn)練過程中，一次僅訓(xùn)練一層，并且是從可感知的特征進行精細調(diào)整的，學習速度變得越來越快。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

為預(yù)訓(xùn)練深層神經(jīng)網(wǎng)構(gòu)建聲學模型

在使用雙手機模型的標準后期處理之后，獲得23.0%的手機錯誤率。
TIMIT之前獲得最優(yōu)結(jié)果為24.4%，這便要求對幾個模型的結(jié)果取平均值。

通過較短時間的前期處理，現(xiàn)在我們在這一塊兒能夠做的更好。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

接下來會發(fā)生什么

當預(yù)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的性能優(yōu)于在MSR演講組一致推崇的高斯混合模型，IBM與Google對這類深層神經(jīng)網(wǎng)絡(luò)實行進一步發(fā)展。
直至2012年，安卓系統(tǒng)的聲音搜索功能便是運用一個基于深層神經(jīng)網(wǎng)絡(luò)的聲學模型。
現(xiàn)在所有起到領(lǐng)導(dǎo)作用的團隊均使用神經(jīng)網(wǎng)絡(luò)，這一技術(shù)正在向性能越來越好的遞歸神經(jīng)網(wǎng)絡(luò)發(fā)展。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

圖像網(wǎng)的ILSVRC-2012競爭

擁有120萬高分辨率訓(xùn)練圖像的數(shù)據(jù)集。
1000種不同類別的物體。
任務(wù)是在前5次猜測中猜出“正確”的。
在這個數(shù)據(jù)集中，對現(xiàn)有的一些計算機視覺方法進行測試。
2012年的計算機視覺系統(tǒng)使用運用手工工程的復(fù)雜的多層系統(tǒng)。

早期階段主要通過優(yōu)化一些參數(shù)得到調(diào)整。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

ILSVRC-2012競爭的錯誤率

2015年深層卷積神經(jīng)網(wǎng) 5%
多倫多大學（Krizhevsky等，2012） 16%
東京大學 26%
牛津大學(Zisserman 等) 27%
INRIA(法國國家科學院)與XRCE（歐洲施樂研究中心） 27%
阿姆斯特丹大學 29%

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

針對Imagenet的神經(jīng)網(wǎng)絡(luò)

Alex Krizhevsky等在NIPS 2012開發(fā)了一個非常深的卷積神經(jīng)網(wǎng)絡(luò)（Le Cunn 1987），它的架構(gòu)包括：

l 7個隱藏層（不包括最大池化層）
l 早期的層級是卷積的
l 最后兩層是全局相連的

激活函數(shù)是每個隱層的修正線性單元
這些訓(xùn)練速度快得多，且比邏輯單元要更具表現(xiàn)力
全局連接層擁有最多的參數(shù)

Dropout用來防止這些層級過擬合

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

在測試集上的樣本（以及神經(jīng)網(wǎng)絡(luò)猜測結(jié)果）

獵豹（豹雪豹埃及貓）
高速列車（小轎車地鐵電車）
放大鏡（剪刀、放大鏡、煎鍋、聽診器）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

修正線性單元

使用邏輯彎曲而非線性神經(jīng)進行修正

y = max(0,x)

這種非線性使得深度網(wǎng)絡(luò)更易訓(xùn)練，在處理真實值的時候也表現(xiàn)的更好。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

Dropout：平均多個大型神經(jīng)網(wǎng)絡(luò)的有效方式

設(shè)想一個包括一個隱層的神經(jīng)網(wǎng)絡(luò)
每次提出一個訓(xùn)練樣本時，隨機以0.5的可能性省略一個隱藏單元
因此我們隨機從2^H不同的架構(gòu)中取樣

所有的架構(gòu)權(quán)重相同

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

Dropout作為一種模型平均形式

我們從2^H模型取樣。只有一部分模型層級訓(xùn)練過，且它們只訓(xùn)練過一個樣本。
權(quán)重共享意味著它們中每個模型都是十分正則化的

這比試著將權(quán)重保持在較少狀態(tài)更能實現(xiàn)好的正則化

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

在測試的時候我們做些什么？

我們能對許多不同的架構(gòu)進行取樣，然后在它們的輸出分布中取幾何平均數(shù)。
能用上所有的隱藏單元更好，但是要將它們的輸入權(quán)重減半
這恰好計算了所有2^H模型預(yù)測的幾何平均數(shù)
在有更多的隱層的情況下，測試時期將權(quán)重減半是唯一一種模型平均的近似值，但是它得到結(jié)果不錯

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

1986年提出的方向傳播算法哪里錯了？

關(guān)于它為什么失敗，我們得出的結(jié)論都錯了。真正的原因是：

1. 我們的標記數(shù)據(jù)集太小了。（幾千倍的差異）
2. 我們的運算能力太慢了。（百萬倍的差異）
3. 我們進行權(quán)重初始化的方式錯了。
4. 我們使用了錯誤的非線性類別。

幾年前，Jeff Dean認為如果計算能力足夠的話，神經(jīng)網(wǎng)絡(luò)也許能夠做到一些非常了不起的事情。

他建立許多架構(gòu)讓一些大型神經(jīng)網(wǎng)絡(luò)在Google的數(shù)據(jù)中心核心區(qū)塊上進行訓(xùn)練。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

卷積神經(jīng)網(wǎng)絡(luò)（部分復(fù)雜細節(jié)已略去）

有關(guān)卷積網(wǎng)絡(luò)最好的類型可以去查看Hochreiter和Schmidhuber于1997年發(fā)布文章的細節(jié)。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)十分強大，因為它們結(jié)合了兩種特性。

l 分布式隱層允許它們有效存儲之前的信息
l 非線性動態(tài)允許它們以復(fù)雜的方式更新隱層
l 深度越深，性能更好

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

機器翻譯的一種全新方式（Suskever, Vinyals和Le，2014）

針對每種語言，我們都有一個深度編碼器RNN和一個深度解碼器RNN
針對原始語言的編碼器RNN按照語句中文本順序進行閱讀

它最終的隱層表示的就是語句所要表達的含義。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

針對翻譯分布的一個解碼器RNN

首先它輸出的是可能的首個單詞的概率分布
我們在這個分布中選取一個單詞，然后將它反饋到RNN中最為一個輸入
給定首個單詞，RNN指定第二個單詞的分布
繼續(xù)進行，直到選完

在訓(xùn)練期間，我們只需要輸入“正確”的單詞。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

編碼器和解碼器網(wǎng)絡(luò)是如何訓(xùn)練的

給定一個句型組，使用反向傳播來最大化產(chǎn)生特定翻譯的對數(shù)可能性
目前這個系統(tǒng)只訓(xùn)練過一組語言

該系統(tǒng)已實現(xiàn)在該數(shù)據(jù)上的最佳水準
該系統(tǒng)大約需要一年來開發(fā)

如果我們使用更多的數(shù)據(jù)，并且同時對多種語言共同進行訓(xùn)練編碼器和解碼器的話，它的表現(xiàn)會好的多

歐洲的議會給出了25種方式，我們可以通過所有的25中解碼器進行反向傳播。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

結(jié)合視覺和語言（Vinyals等近期工作的簡單介紹）

在imagent上訓(xùn)練的深度卷積網(wǎng)絡(luò)種最后一個隱層的活動向量是能編碼圖片中內(nèi)容的“認知”
將認知規(guī)劃到深度卷積神經(jīng)網(wǎng)絡(luò)的初始隱層
訓(xùn)練RNN來輸出它在圖片中看到了什么

使用一個擁有20萬張圖片（每張圖片有幾個注釋）的數(shù)據(jù)集
不再重復(fù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

一群人在一個戶外市場購物

（人們蜷縮圍繞著一家開放市場）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

一個抱著填充動物玩具的孩子特寫

（一個小女孩睡在沙發(fā)上，抱著一個玩具熊）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

文本處理的意義

一旦我們能將一句話轉(zhuǎn)化成一個思想向量，那么一篇文本也能變成一系列的思想向量。
在接下里的幾年里，人們將使用深度RNNs來學習對思想向量序列進行建模。

這將捕獲自然推理過程
它應(yīng)該能讓我們理解文本要表達的含義

我們可能需要數(shù)十億的神經(jīng)元以及百億級的參數(shù)才能實現(xiàn)人類的理解水平。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

經(jīng)典AI的意義

對于物理學家來說光波必須通過以太來進行傳播

他們認為沒有其他的可能性

對于AI研究學者來說人們必須使用正式的推理規(guī)則來通過一個一個論點來傳播含義

他們認為沒有其他的可能性

神經(jīng)網(wǎng)絡(luò)內(nèi)部的編碼器與解碼器沒有符號專門用來針對機器翻譯

唯一的符號是輸入和輸出

也許處理符號串不是通過操作內(nèi)部符號串來實現(xiàn)的

處理像素陣列絕對不是通過操作內(nèi)部像素來實現(xiàn)的

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習是從哪里來的？

所有的主要思想和幾乎全部的實踐成果都是來源于基于興趣的研究。（Gatsby基金十分重要）
目標在于鼓勵翻譯研究的政府資助也對發(fā)展深度學習科學技術(shù)有小部分貢獻

公司擅長于開發(fā)新的想法理念
長遠來看，好的想法理念卻是真正的瓶頸
因此給予大學基礎(chǔ)結(jié)構(gòu)來發(fā)展真正的想法理念

PS : 本文由雷鋒網(wǎng)編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

via Geoffrey Hinton

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

李尊

編輯

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章