NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

本文作者： skura

編輯：汪思穎

2018-12-19 13:01

專題：NeurIPS 2018

導(dǎo)語：2017 年在 NeurIPS 上發(fā)表的論文在 2018 年引用量超過 100 的有 19 篇，attention is all your need 占榜首~

雷鋒網(wǎng) AI 科技評論按，12 月上旬，NeurIPS 2018 在加拿大蒙特利爾會展中心（Palais des Congrès de Montréal）成功舉辦，雷鋒網(wǎng)對此進行了報道。今年的會議在主題活動、投稿論文數(shù)量和參會人數(shù)上，相比往年都上了一個新臺階。NeurIPS 2018 吸引了近九千人參加，最終 1010 篇論文被接收，其中，有四篇論文被評為最佳論文，接收的覆蓋了十大研究領(lǐng)域。

看完新論文，別忘舊論文。日前，學術(shù)頭條對入選 NeurIPS 2017 的論文在 2017.12 至 2018.12 之間的引用量進行了統(tǒng)計，引用量超過 100 的論文有 19 篇，論文名單如下：

NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

可以看到，引用量排名前三的論文分別是 Attention Is All You Need、Improved Training of Wasserstein GANs 和 Dynamic Routing Between Capsules。此前，雷鋒網(wǎng)對這幾篇論文也有過解讀，今天，就和大家一起再復(fù)習下吧。

Attention Is All You Need

這是谷歌與多倫多大學等高校合作發(fā)表的一篇論文，他們提出了一種新的網(wǎng)絡(luò)框架——Transformer。Transformer 是完全基于注意力機制（attention mechanism）的網(wǎng)絡(luò)框架，放棄了 RNN 和 CNN 模型。

眾所周知，在編碼-解碼框架中，主流的序列傳導(dǎo)模型都是基于 RNN 或者 CNN，其中能完美連接編碼器和解碼器的是注意力機制。而谷歌提出的這一新框架 Transformer，則是完全基于注意力機制。

Transformer 用于執(zhí)行翻譯任務(wù)，實驗表明，這一模型表現(xiàn)極好，可并行化，并且大大減少了訓(xùn)練時間。Transformer 在 WMT 2014 英德翻譯任務(wù)上實現(xiàn)了 28.4 BLEU，改善了現(xiàn)有的最佳成績（包括超過 2 個 BLEU 的集合模型），在 WMT 2014 英法翻譯任務(wù)中，建立了一個新的單一模式，在八個 GPU 上訓(xùn)練了 3.5 天后，最好的 BLEU 得分為41.0，這在訓(xùn)練成本最小的情況下達到了最佳性能。由 Transformer 泛化的模型成功應(yīng)用于其他任務(wù)，例如在大量數(shù)據(jù)集和有限數(shù)據(jù)集中訓(xùn)練英語成分句法解析的任務(wù)。

注意力機制是序列模型和傳導(dǎo)模型的結(jié)合，在不考慮輸入輸出序列距離的前提下允許模型相互依賴，有時（但是很少的情況），注意力機制會和 RNN 結(jié)合。

模型結(jié)構(gòu)如下：

編碼器：編碼器由 6 個完全的層堆棧而成，每一層都有兩個子層。第一個子層是多頭的 self-attention 機制，第二層是一層簡單的前饋網(wǎng)絡(luò)全連接層。在每一層子層都有 residual 和歸一化。

解碼器：解碼器也是由 6 個完全相同的層堆棧而成，每一層有三個子層，在編碼棧的輸出處作為多頭的 attention 機制。

注意（attention）：功能是將 Query 和一組鍵-值對映射到輸出，那么包括 query、鍵、值及輸出就都成為了向量。輸出是值的權(quán)重加和，而權(quán)重則是由值對應(yīng)的 query 和鍵計算而得。

Improved Training of Wasserstein GANs

在該論文中，蒙特利爾大學的研究者對 WGAN 進行改進，提出了一種替代 WGAN 判別器中權(quán)重剪枝的方法。

論文摘要

生成對抗網(wǎng)絡(luò)（GAN）將生成問題當作兩個對抗網(wǎng)絡(luò)的博弈：生成網(wǎng)絡(luò)從給定噪聲中產(chǎn)生合成數(shù)據(jù)，判別網(wǎng)絡(luò)分辨生成器的的輸出和真實數(shù)據(jù)。GAN 可以生成視覺上吸引人的圖片，但是網(wǎng)絡(luò)通常很難訓(xùn)練。前段時間，Arjovsky 等研究者對 GAN 值函數(shù)的收斂性進行了深入的分析，并提出了 Wasserstein GAN（WGAN），利用 Wasserstein 距離產(chǎn)生一個比 Jensen-Shannon 發(fā)散值函數(shù)有更好的理論上的性質(zhì)的值函數(shù)。但是仍然沒能完全解決 GAN 訓(xùn)練穩(wěn)定性的問題。

所做工作：

通過小數(shù)據(jù)集上的實驗，概述了判別器中的權(quán)重剪枝是如何導(dǎo)致影響穩(wěn)定性和性能的病態(tài)行為的。

提出具有梯度懲罰的 WGAN（WGAN with gradient penalty），從而避免同樣的問題。

展示該方法相比標準 WGAN 擁有更快的收斂速度，并能生成更高質(zhì)量的樣本。

展示該方法如何提供穩(wěn)定的 GAN 訓(xùn)練：幾乎不需要超參數(shù)調(diào)參，成功訓(xùn)練多種針對圖片生成和語言模型的 GAN 架構(gòu)。

WGAN 的 critic 函數(shù)對輸入的梯度相比于 GAN 的更好，因此對生成器的優(yōu)化更簡單。另外，WGAN 的值函數(shù)是與生成樣本的質(zhì)量相關(guān)的，這個性質(zhì)是 GAN 所沒有的。WGAN 的一個問題是如何高效地在 critic 上應(yīng)用 Lipschitz 約束，Arjovsky 提出了權(quán)重剪枝的方法。但權(quán)重剪枝會導(dǎo)致最優(yōu)化困難。在權(quán)重剪枝約束下，大多數(shù)神經(jīng)網(wǎng)絡(luò)架構(gòu)只有在學習極其簡單地函數(shù)時才能達到 k 地最大梯度范數(shù)。因此，通過權(quán)重剪枝來實現(xiàn) k-Lipschitz 約束將會導(dǎo)致 critic 偏向更簡單的函數(shù)。如下圖所示，在小型數(shù)據(jù)集上，權(quán)重剪枝不能捕捉到數(shù)據(jù)分布的高階矩。

NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

由于在 WGAN 中使用權(quán)重剪枝可能會導(dǎo)致不良結(jié)果，研究者考慮在訓(xùn)練目標上使用 Lipschitz 約束的一種替代方法：一個可微的函數(shù)是 1-Lipschitz，當且僅當它的梯度具有小于或等于 1 的范數(shù)時。因此，可以直接約束 critic 函數(shù)對其輸入的梯度范數(shù)。新的 critic 函數(shù)為：

NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

使用 GAN 構(gòu)建語言模型是一項富有挑戰(zhàn)的任務(wù)，很大程度上是因為生成器中離散的輸入輸出序列很難進行反向傳播。先前的 GAN 語言模型通常憑借預(yù)訓(xùn)練或者與監(jiān)督最大似然方法聯(lián)合訓(xùn)練。相比之下，使用該論文的方法，不需采用復(fù)雜的通過離散變量反向傳播的方法，也不需要最大似然訓(xùn)練或 fine-tune 結(jié)構(gòu)。該方法在 Google Billion Word 數(shù)據(jù)集上訓(xùn)練了一個字符級的 GAN 語言模型。生成器是一個簡單的 CNN 架構(gòu)，通過 1D 卷積將 latent vector 轉(zhuǎn)換為 32 個 one-hot 字符向量的序列。

該文提供了一種訓(xùn)練 GAN 的穩(wěn)定的算法，能夠更好的探索哪種架構(gòu)能夠得到最好的生成模型性能。該方法也打開了使用大規(guī)模圖像或語言數(shù)據(jù)集訓(xùn)練以得到更強的模型性能的大門。

本論文在github上開源了代碼：github

本論文同時也提供了詳細的數(shù)學證明，以及更多的示例，進一步了解請閱讀原論文：Improved Training of Wasserstein GANs

Dynamic Routing Between Capsules

為了避免網(wǎng)絡(luò)結(jié)構(gòu)的雜亂無章，Hinton 提出把關(guān)注同一個類別或者同一個屬性的神經(jīng)元打包集合在一起，好像膠囊一樣。在神經(jīng)網(wǎng)絡(luò)工作時，這些膠囊間的通路形成稀疏激活的樹狀結(jié)構(gòu)（整個樹中只有部分路徑上的膠囊被激活），從而形成了他的 Capsule 理論。Capsule 也就具有更好的解釋性。

Capsule 這樣的網(wǎng)絡(luò)結(jié)構(gòu)在符合人們「一次認知多個屬性」的直觀感受的同時，也會帶來另一個直觀的問題，那就是不同的膠囊應(yīng)該如何訓(xùn)練、又如何讓網(wǎng)絡(luò)自己決定膠囊間的激活關(guān)系。Hinton 這篇論文解決的重點問題就是不同膠囊間連接權(quán)重（路由）的學習。

解決路由問題

首先，每個層中的神經(jīng)元分組形成不同的膠囊，每個膠囊有一個「活動向量」activity vector，它是這個膠囊對于它關(guān)注的類別或者屬性的表征。樹結(jié)構(gòu)中的每個節(jié)點就對應(yīng)著一個活動的膠囊。通過一個迭代路由的過程，每個活動的膠囊都會從高一層網(wǎng)絡(luò)中的膠囊中選擇一個，讓它成為自己的母節(jié)點。對于高階的視覺系統(tǒng)來說，這樣的迭代過程就很有潛力解決一個物體的部分如何層層組合成整體的問題。

對于實體在網(wǎng)絡(luò)中的表征，眾多屬性中有一個屬性比較特殊，那就是它出現(xiàn)的概率（網(wǎng)絡(luò)檢測到某一類物體出現(xiàn)的置信度）。一般典型的方式是用一個單獨的、輸出 0 到 1 之間的回歸單元來表示，0 就是沒出現(xiàn)，1 就是出現(xiàn)了。在這篇論文中，Hinton 想用活動向量同時表示一個實體是否出現(xiàn)以及這個實體的屬性。他的做法是用向量不同維度上的值分別表示不同的屬性，然后用整個向量的模表示這個實體出現(xiàn)的概率。為了保證向量的長度，也就是實體出現(xiàn)的概率不超過 1，向量會通過一個非線性計算進行標準化，這樣實體的不同屬性也就實際上體現(xiàn)為了這個向量在高維空間中的方向。

采用這樣的活動向量有一個很大的好處，就是可以幫助低層級的膠囊選擇自己連接到哪個高層級的膠囊。具體做法是，一開始低層級的膠囊會給所有高層級的膠囊提供輸入；然后這個低層級的膠囊會把自己的輸出和一個權(quán)重矩陣相乘，得到一個預(yù)測向量。如果預(yù)測向量和某個高層級膠囊的輸出向量的標量積更大，就可以形成從上而下的反饋，提高這兩個膠囊間的耦合系數(shù)，降低低層級膠囊和其它高層級膠囊間的耦合系數(shù)。進行幾次迭代后，貢獻更大的低層級膠囊和接收它的貢獻的高層級膠囊之間的連接就會占越來越重要的位置。

在論文作者們看來，這種「一致性路由」（routing-by-agreement）的方法要比之前最大池化之類只保留了唯一一個最活躍的特征的路由方法有效得多。

網(wǎng)絡(luò)構(gòu)建

作者們構(gòu)建了一個簡單的 CapsNet。除最后一層外，網(wǎng)絡(luò)的各層都是卷積層，但它們現(xiàn)在都是「膠囊」的層，其中用向量輸出代替了 CNN 的標量特征輸出、用一致性路由代替了最大池化。與 CNN 類似，更高層的網(wǎng)絡(luò)觀察了圖像中更大的范圍，不過由于不再是最大池化，所以位置信息一直都得到了保留。對于較低的層，空間位置的判斷也只需要看是哪些膠囊被激活了。

這個網(wǎng)絡(luò)中最底層的多維度膠囊結(jié)構(gòu)就展現(xiàn)出了不同的特性，它們起到的作用就像傳統(tǒng)計算機圖形渲染中的不同元素一樣，每一個膠囊關(guān)注自己的一部分特征。這和目前的計算機視覺任務(wù)中，把圖像中不同空間位置的元素組合起來形成整體理解（或者說圖像中的每個區(qū)域都會首先激活整個網(wǎng)絡(luò)然后再進行組合）具有截然不同的計算特性。在底層的膠囊之后連接了 PrimaryCaps 層和 DigitCaps 層。

膠囊效果的討論

在論文最后，作者們對膠囊的表現(xiàn)進行了討論。他們認為，由于膠囊具有分別處理不同屬性的能力，相比于 CNN 可以提高對圖像變換的健壯性，在圖像分割中也會有出色的表現(xiàn)。膠囊基于的「圖像中同一位置至多只有某個類別的一個實體」的假設(shè)也使得膠囊得以使用活動向量這樣的分離式表征方式來記錄某個類別實例的各方面屬性，還可以通過矩陣乘法建模的方式更好地利用空間信息。不過膠囊的研究也才剛剛開始，他們覺得現(xiàn)在的膠囊至于圖像識別，就像二十一世紀初的 RNN 之于語音識別——研究現(xiàn)在只是剛剛起步，日后定會大放異彩。

論文全文參見：https://arxiv.org/pdf/1710.09829.pdf

對這三篇論文感興趣的朋友們，可以點擊如下地址，查看更多更詳細的解讀：

谷歌推出基于注意機制的全新翻譯框架，Attention is All You Need!

蒙特利爾大學研究者改進Wasserstein GAN，極大提高GAN訓(xùn)練穩(wěn)定性

終于盼來了Hinton的Capsule新論文，它能開啟深度神經(jīng)網(wǎng)絡(luò)的新時代嗎？

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。