深度學習的爆發要歸功給誰？Yann LeCun、Fran?ois Chollet各執一詞

本文作者：楊曉凡

編輯：郭奕欣

2018-01-24 15:02

導語：AlexNet 之前的故事有幾人了解？

雷鋒網 AI 科技評論按：自從深度學習在各項任務中頻頻取得佳績、人工智能的研究員也越來越受追捧以來，許多人都加入了相關領域開始工作或者學習。不過，除了元老級的教授和研究人員之外，恐怕多數后來者都不是特別清楚神經網絡的干柴是如何被點燃成熊熊烈火的。

近日 Ian Goodfellow、Fran?ois Chollet、Yann LeCun 等人就在推特上簡單討論了「深度學習是怎么火起來的？應該歸功給誰？」雷鋒網 AI 科技評論把他們的討論內容整理如下。

Ian Goodfellow

「GANs 之父」、谷歌大腦高級研究員 Ian Goodfellow 首先發推說道：

「看到很多人把深度學習看作是通過反向傳播完成的監督學習，這事真的很奇怪，要知道 2006 年的深度學習革命最初就是基于反向傳播和監督學習兩件事都不是很奏效的觀點的。」

在這條推文下面與網友的討論中，Ian Goodfellow 也繼續補充說明了自己的觀點：

監督學習和基于梯度的優化方法，兩者的實際表現都比人們開始想象的要好，所以做深度學習的人才開始用它們了。
（回復網友「Hinton 的無監督預訓練和深度置信網絡并沒能給深度學習帶來什么突破。6 年后使用了監督學習和反向傳播的 AlexNet 才是突破（當然了還有 GPU、卷積層、ReLU、dropout）」）無監督預訓練和深度置信網絡是另一件 2006 開始的更大的變革的一部分。Yoshua 的實驗室在去噪和壓縮自動編碼器的堆疊上做了很多工作，Yann 的實驗室在預測性稀疏分解等模型的堆疊上做了很多工作。

Fran?ois Chollet 和 Yann LeCun

Keras作者、谷歌大腦高級研究員 Fran?ois Chollet 幾個小時后也發出推文：

「我看到很多人都言之鑿鑿地說深度學習的大爆發開始于 Krizhevsky 等人 2012 年的成果。但是我很少看到有人記得 Ciresan 等人也有功勞，他們 2011 年的時候就用 CUDA 實現深度卷積網絡、在 NVIDIA GPU 上訓練，并贏得了圖像分類比賽冠軍。」「我指的是 IJCNN 2011 上的德國交通信號燈識別比賽，以及 ICDAR 2011 中文手寫字符識別比賽。」

然后（話很多的） Fran?ois Chollet 也在下面評論區繼續著討論，「CNN之父」、Facebook 人工智能實驗室總監 Yann LeCun 也參與了進來：

Fran?ois：我還記得自己在 2014 年的時候問過 Dan Ciresan 怎么看 Torch7，那時候我還是 Torch 用戶。他給我的回答簡單總結一下是說，他覺得里面的 bug 一串接著一串沒法用，他還是更喜歡用自己寫的 CUDA 代碼。那時候我不太贊同他的立場（現在也不）。
Ian：這篇論文里的卷積網絡在CUDA出現之前就用了GPU https://hal.inria.fr/inria-00112631/document
Yann：回復 Ian ：沒錯。那個時候（2005 年）微軟研究院的 Patrice Simard 還需要向 NIVIDA 要一些專用文件。把多重卷積操作轉換成矩陣乘積比較快的這件事是他的團隊首先發現的。
Fran?ois：回復 Ian ：你覺得哪個是更大的突破？是卷積網絡在 GPU 上運行得更快了，還是卷積網絡可以贏下參與者眾多的圖像分類比賽？
Ian：回復 Fran?ois ：2011 年的時候我也用 GPU 上跑的卷積網絡贏過機器學習比賽（NIPS 的遷移學習比賽），不過我沒覺得這是深度學習大爆發的開始
Yann：回復 Fran?ois ：后者更重要。其實在用上 GPU 、拿下交通信號燈比賽冠軍之前，卷積網絡就在一系列 benchmark 中取得了最佳成績。只是那時候整個社區還不相信卷積網絡，或者是覺得這之間沒什么聯系。ImageNet 比賽改變了這一切。
Fran?ois：回復 Ian ：我覺得沒人會低估 AlexNet 一舉掀起深度學習熱潮的重要意義（明擺著的）。不過同時也很難否認這就是當時的浪潮的一部分。討論歸功給誰很復雜，我們這個社區在這件事情上并沒有一直做得很好。
Fran?ois：回復 Ian ：再說明白一點：討論做出的貢獻的時候，人們往往會掉進「贏者通吃」的觀念里，把創新的想法看作是逐漸的積累過程，而其實宏觀的趨勢可能要比單個人的貢獻更重要。