LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

本文作者：我在思考中

2022-06-08 10:36

導語：Gary Marcus又雙叒叕跟人吵起來了，這次的吵架對象是Yann LeCun。

作者｜李梅

編輯｜陳彩嫻

前幾天剛跟馬斯克吵完架的Gary Marcus，又雙叒叕跟人吵起來了，這次的吵架對象是Yann LeCun。

一向喜歡給深度學習潑冷水的Marcus，在今天發(fā)帖談了談與LeCun的「舊賬」和「新仇」，并給了LeCun一個白眼：

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

事情是這樣的。

幾天前，有人在推特上發(fā)帖問: 在機器學習中，最優(yōu)雅美麗的idea是什么？感覺數(shù)學家和物理學家經(jīng)常談論美學，但我們卻很少，為什么？

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

于是網(wǎng)友們都來認真答題：多重權重更新算法（multiplicative weights update）、核技巧（kernel trick）、降維（dimension reduction）、一些凸優(yōu)化方法（convex optimization）、變分推理（variational inference）、熵和信息論等等。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

大家還就機器學習研究的美學性討論了起來。有人認為，機器學習理論家其實也在談論優(yōu)雅這個東西，尤其是那些具有理論計算機背景或者傳統(tǒng)物理學背景的人。也有人言語犀利：之所以很少有人談論美學，是因為機器學習重在應用，而不是像純粹數(shù)學那樣「毫無價值」。

谷歌大腦的研究員Chris Olah也來轉貼評論說：

ML的優(yōu)雅是一種生物學的優(yōu)雅，而非數(shù)學或物理的那種優(yōu)雅。梯度下降創(chuàng)造了令人難以置信的結構和行為，正如進化創(chuàng)造了令人敬畏的自然復雜性。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

LeCun表示：梯度下降？這我熟！

近4年來，我一直試圖讓我許多更注重理論的同事相信梯度下降所具有的不可思議的力量。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

LeCun在1989年發(fā)表的那篇論文，就是通過使用梯度下降的方法訓練了CNN進行圖像識別，梯度下降后來成為計算機視覺研究的基礎理論。

LeCun還回憶了2000年丹佛NIPS會議上的一次經(jīng)歷。當時一位非常杰出的ML研究人員在晚宴上問道：「我們在ML中學到的最重要的東西是什么？」LeCun回答說：「梯度下降」。當時那位研究人員臉上目瞪口呆的表情表明他對這個回答嗤之以鼻。

LeCun這個「仇」記得還挺久......

那么，「梯度下降」是最優(yōu)雅的ML算法嗎？有人贊成有人反對。

毫無疑問GD是過去十年來我們在AI領域所看到的所有進步背后的核心驅動力。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

GD很了不起，...但這并不是AI。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

LeCun正忙著與網(wǎng)友進行友好交流，Marcus也來了。有討論深度學習的地方，怎能沒有我Marcus的身影？

的確。但重要的是，令人難以置信的力量≠無窮的力量。要意識到（梯度下降）的極限，才能知道下一步要做什么來獲得進步。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

LeCun一看：所以你的意思是要拋棄梯度下降了？？

1.基于梯度的優(yōu)化是學習的一個要素，而不是人類級人工智能的一整套組件。

2.未來會有什么方案可能替代基于梯度的優(yōu)化？你是相信（a）無梯度優(yōu)化不好？，還是（b）優(yōu)化本身不好？

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

對此，Marcus表示很委屈：我的意思是DL需要「補充」，而不是「替換」！

我感覺自己又被「稻草人謬誤」攻擊了，附上我的論點核心：我從未呼吁要替代深度學習/梯度下降。未來會出現(xiàn)的是「其他」工具，比如與SGD一起工作的符號處理操作。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

Marcus還搬出發(fā)表于2018年的一篇文章“Deep Learning: A Critical Appraisal”作為證據(jù)：

盡管有我所描述的這些問題，但我認為我們不需要拋棄深度學習。相反，我們需要重新定義它：不是一種通用的辦法，而只是眾多工具的一種。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

還有最近的一場keynote演講：

我們不需要舍棄深度學習，但我們需要找到辦法來作為對它的補充，因為智能本身是多方面的。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

但是，LeCun并不買賬，他接著Marcus的話回復：

所以「DL是辦法的一種，但我們需要新的推理組建」？歡迎來到我的世界！

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

這可把Marcus惹急了：

我給的引用是來自2018年，那篇你稱之為「大部分都是錯誤的」的文章。我的主張自1992年以來就沒變過，唯一遲到的是你「歡迎來到我的世界」這句話，而這句話其實是你對我實際立場的認可。

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

那就來翻翻舊賬，針對Marcus在2018年寫的那篇文章，LeCun的確曾這樣評論（蝦仁豬心）：

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

到這兒大家也能看出來，二人討論的對象和觀點是有錯位的。LeCun希望如果有新的方案，仍需要封裝在DL下，而Marcus的意思是新的方案需要圍繞著DL進行封裝，前者是關于規(guī)模的擴展，后者則是一種混合和補充。

大家怎么看？

LeCun稱梯度下降是最優(yōu)雅的 ML 算法，Marcus：我不同意

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發(fā)私信

當月熱門文章