谷歌推出基于注意機(jī)制的全新翻譯框架，Attention is All You Need!

本文作者：這只萌萌

編輯：郭奕欣

2017-06-16 10:06

導(dǎo)語(yǔ)：谷歌最近發(fā)表論文，提出了一種完全基于注意力機(jī)制的網(wǎng)絡(luò)框架Transformer。Attention is All You Need!

雷鋒網(wǎng)AI科技評(píng)論消息，谷歌最近與多倫多大學(xué)等高校合作發(fā)表論文，提出了一種新的網(wǎng)絡(luò)框架——Transformer。Transformer是完全基于注意力機(jī)制（attention mechanism)的網(wǎng)絡(luò)框架，放棄了RNN和CNN模型。

眾所周知，在編碼-解碼框架中，主流的序列傳導(dǎo)模型都是基于RNN或者CNN的，其中能完美連接編碼器和解碼器的是注意力機(jī)制。而谷歌提出的這一新框架Transformer，則是完全基于注意力機(jī)制的。

Transformer用于執(zhí)行翻譯任務(wù)，實(shí)驗(yàn)表明，這一模型表現(xiàn)極好，可并行化，并且大大減少訓(xùn)練時(shí)間。Transformer在WMT 2014英德翻譯任務(wù)上實(shí)現(xiàn)了28.4 BLEU，改善了現(xiàn)有的最佳成績(jī)（包括超過(guò)2個(gè)BLEU的集合模型），在WMT 2014英法翻譯任務(wù)中，建立了一個(gè)新的單一模式，在八個(gè)GPU上訓(xùn)練了3.5天后，最好的BLEU得分為41.0，這在訓(xùn)練成本最小的情況下達(dá)到了最佳性能。由Transformer泛化的模型成功應(yīng)用于其他任務(wù)，例如在大量數(shù)據(jù)集和有限數(shù)據(jù)集中訓(xùn)練英語(yǔ)成分句法解析的任務(wù)。

注意力機(jī)制是序列模型和傳導(dǎo)模型的結(jié)合，在不考慮輸入輸出序列距離的前提下允許模型相互依賴，有時(shí)（但是很少的情況），注意力機(jī)制會(huì)和RNN結(jié)合。

模型結(jié)構(gòu)如下：

編碼器：編碼器有6個(gè)完全的層堆棧而成，每一層都有兩個(gè)子層。第一個(gè)子層是多頭的self-attention機(jī)制，第二層是一層簡(jiǎn)單的前饋網(wǎng)絡(luò)全連接層。在每一層子層都有residual和歸一化。

解碼器：解碼器也是有6個(gè)完全相同的層堆棧而成，每一層有三個(gè)子層，在編碼棧的輸出處作為多頭的attention機(jī)制。

注意（attention）：功能是將Query和一組鍵-值對(duì)映射到輸出，那么包括query、鍵、值及輸出就都成為了向量。輸出是值的權(quán)重加和，而權(quán)重則是由值對(duì)應(yīng)的query和鍵計(jì)算而得。

谷歌推出基于注意機(jī)制的全新翻譯框架，Attention is All You Need!

source：arxiv

雷鋒網(wǎng)了解到，谷歌這一模型在眾多翻譯任務(wù)中都取得了最佳成績(jī)，其泛化模型也在其他識(shí)別任務(wù)中表現(xiàn)優(yōu)異。谷歌對(duì)這一基于注意力機(jī)制的Transformer表示樂(lè)觀，研究人員很高興看到模型在其他任務(wù)中表現(xiàn)良好，谷歌計(jì)劃研究Transformer的更廣泛應(yīng)用——其他形式的輸入輸出，包括圖像、音頻及視頻等。

原文鏈接：https://arxiv.org/abs/1706.03762，雷鋒網(wǎng)編譯

附谷歌之前的翻譯框架進(jìn)化史：

一）基于短語(yǔ)的機(jī)器翻譯。

2006 年Google團(tuán)隊(duì)改進(jìn)了——統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation)，并宣布上線Google Translate翻譯功能。當(dāng)時(shí)的核心技術(shù) “統(tǒng)計(jì)機(jī)器翻譯”的基本思想是通過(guò)對(duì)大量平行語(yǔ)料進(jìn)行統(tǒng)計(jì)分析、構(gòu)建統(tǒng)計(jì)翻譯模型、進(jìn)而使用此模型進(jìn)行翻譯。簡(jiǎn)單來(lái)說(shuō)，你可以認(rèn)為這個(gè)翻譯系統(tǒng)是基于短語(yǔ)翻譯的。

二）用于自動(dòng)翻譯的端到端的學(xué)習(xí)方法。

谷歌2016年9月29日前后正式發(fā)布第一代神經(jīng)翻譯系統(tǒng)。當(dāng)時(shí)谷歌在 ArXiv.org 上發(fā)表論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介紹谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)（GNMT），相對(duì)于十年前發(fā)布的 Google Translate（谷歌翻譯），當(dāng)時(shí)其服務(wù)背后的核心算法是基于短語(yǔ)的機(jī)器翻譯。神經(jīng)機(jī)器翻譯（NMT: Neural Machine Translation）是一種用于自動(dòng)翻譯的端到端的學(xué)習(xí)方法，該方法有望克服傳統(tǒng)的基于短語(yǔ)的翻譯系統(tǒng)的缺點(diǎn)。

當(dāng)時(shí)外界對(duì)這個(gè)神經(jīng)翻譯系統(tǒng)的褒貶不一，比較綜合的評(píng)價(jià)是：在同等語(yǔ)料的情況下，相較于基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯，神經(jīng)機(jī)器翻譯（GNMT）系統(tǒng)能在更少工程量的基礎(chǔ)上實(shí)現(xiàn)相同的效果。但是其純粹把輸入的句子當(dāng)做一個(gè)序列（理論上任意符號(hào)序列都可以），不考慮這個(gè)句子本身作為語(yǔ)言的特性，生成的內(nèi)容可能會(huì)比較奇怪，難以控制，錯(cuò)誤的結(jié)果也難以解釋。

三）完全基于注意力機(jī)制（attention mechanism)的網(wǎng)絡(luò)框架。

谷歌翻譯新的網(wǎng)絡(luò)框架——Transformer是完全基于注意力機(jī)制（attention mechanism)的網(wǎng)絡(luò)框架，如上文所說(shuō)，注意力機(jī)制是序列模型和傳導(dǎo)模型的結(jié)合，在不考慮輸入輸出序列距離的前提下允許模型相互依賴，相比去年9月分公布的谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)（GNMT），這里的傳導(dǎo)模型的加入極有可能是這次系統(tǒng)升級(jí)的關(guān)鍵，

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

5人收藏

相關(guān)文章

這只萌萌

知情人士

發(fā)私信

當(dāng)月熱門文章

谷歌推出基于注意機(jī)制的全新翻譯框架，Attention is All You Need!

谷歌推出基于注意機(jī)制的全新翻譯框架，Attention is All You Need!