GLUE 榜單破 90 大關！百度預訓練模型ERNIE榮登榜首

本文作者： camel

2019-12-11 14:40

導語：超 T5，戰 MT-DNN-SMART

雷鋒網 AI科技評論了解到，北京時間12月10日，預訓練模型界的“MVP”百度ERNIE，在自然語言處理領域權威數據集GLUE中榮登榜首，并以9個任務平均得分首次突破90大關刷新該榜單歷史，超越微軟MT-DNN-SMART、谷歌T5、ALBERT等一眾國際頂級預訓練模型的表現。
GLUE 榜單破 90 大關！百度預訓練模型ERNIE榮登榜首

一、GLUE榜單

通用語言理解評估基準GLUE是自然語言處理領域最權威的排行榜之一，是由紐約大學、華盛頓大學、谷歌DeepMind等機構聯合推出，以其涵蓋大量不同類型的NLP任務，包括自然語言推斷、語義相似度、問答匹配、情感分析等9大任務，成為衡量自然語言處理研究進展的行業標準。

因此，吸引了谷歌、Facebook、微軟等國際頂尖公司以及斯坦福大學、卡耐基·梅隆大學等頂尖大學參加。GLUE排行榜的效果，在一定程度上成為了衡量各機構自然語言處理預訓練技術水平最重要的指標之一。

2018年底以來，以BERT為代表的預訓練模型大幅提升了自然語言處理任務的基準效果，取得了顯著技術突破，基于大規模數據的預訓練技術在自然語言處理領域變得至關重要。

眾AI公司紛紛發力預訓練領域，相繼發布了XLNet、RoBERTa、ALBERT、T5等預訓練模型。在此過程中，百度也先后發布了ERNIE 1.0、ERNIE 2.0，在16個中英數據集上曾取得過當時的SOTA。

從GLUE排行榜上來看，BERT使用預訓練加微調的方式，相對過往的基線成績大幅提升各子任務的效果，首次突破了80大關。XLNet、RoBERTa、T5、MT-DNN-SMART等模型平均分數分布在88-89分范圍，作為對比，人類水平是87.1。

此次，百度ERNIE登頂，成為首個突破90大關的模型。此外，通過榜單，我們可以看到，ERNIE在CoLA、SST-2、QQP、WNLI等數據集上也達到了SOTA水平。相對BERT的80.5的成績，ERNIE提升近10個點，效果還是相當顯著的。

二、刷榜模型

據雷鋒網了解，此次登頂的模型主要基于ERNIE 2.0持續學習語義理解框架下的系列優化。

據百度介紹，ERNIE 2.0 持續學習的語義理解框架,能夠支持增量引入不同角度的自定義預訓練任務，通過多任務學習對模型進行訓練更新，每當引入新任務時，該框架可在學習該任務的同時，不遺忘之前學到過的信息。

以下是百度ERNIE 2.0的原理示意圖：

GLUE 榜單破 90 大關！百度預訓練模型ERNIE榮登榜首

百度ERNIE 2.0原理示意圖

百度研發團隊通過ERNIE持續學習框架進一步優化了通用詞匯級知識學習和面向任務類型的預訓練，最終在通用語義表示能力上取得了顯著提升。

詞匯級信息預訓練上，百度研發團隊提出了基于互信息的動態邊界掩碼算法 (Dynamic Boundary Masking)，改進了ERNIE 1.0中基于短語和實體等Knowledge Masking的掩碼算法，這類算法需依賴短語和實體標注工具，從而導致Mask單元多樣性差、語義片段覆蓋度低等問題。

動態邊界掩碼算法，首先通過假設檢驗從海量數據中篩選高置信度詞對，并計算詞對間的互信息。以詞對的互信息及其統計量為基礎，計算樣本中詞與詞之間的緊密度。掩碼時以該緊密度作為概率分布進行動態的邊界采樣。這種動態邊界掩碼的方式既兼顧了ERNIE 1.0對知識單元進行建模的能力，又提升了片段的多樣性。

下圖展示了不同掩碼算法的差異：

GLUE 榜單破 90 大關！百度預訓練模型ERNIE榮登榜首

Dynamic Boundary Masking Algorithm示意圖

其中B(Begin)代表了一個片段的起始，I(Inside)代表當前位置應與上文最近出現的B位置組成片段。以圖中句子為例，動態邊界掩碼算法以詞對間的緊密度進行邊界采樣，動態的構造出了待掩碼的片段候選。

為了更好提升應用任務效果，模型在通用預訓練的基礎上，還新增了面向指定任務類型的預訓練任務。該模型首次將無監督指代消解作為預訓練任務，

GLUE 榜單破 90 大關！百度預訓練模型ERNIE榮登榜首

指代消解預訓練任務示意圖

指代消解的目標是識別篇章中的代詞指向哪個名詞短語的問題。模型基于無監督語料構造了指代消解任務，將句子中重復出現的某個名詞短語隨機替為句子中的其他名詞短語，讓模型去預測替換后的句子是否和原句相同。該任務會顯著提升模型的指代關系預測能力。

此外，模型在訓練數據和結構上也做了調整。在預訓練的數據使用上，模型針對論壇對話數據進一步精細化建模。對話數據相對篇章文本數據具有很強的結構性，相同回復對應的 Query 往往語義比較相似。模型充分利用了對話間語義關系，幫助ERNIE更好地建模語義相關性，在QQP等文本匹配任務上效果提升明顯；在模型結構上，相對開源ERNIE 2.0 Large模型使用了更大的參數。

綜合來看，ERNIE新模型沿著持續學習語義理解框架，進一步優化了現有的學習任務，并新增了面向任務類型的預訓練，最后通過對訓練數據、模型參數結構的精細調整，取得了顯著的效果提升，在GLUE榜單成功突破90大關！

據了解，百度ERNIE 2.0的論文（https://arxiv.org/abs/1907.12412）已被國際人工智能頂級學術會議AAAI-2020收錄，AAAI-2020將于2020年2月7日-12日在美國紐約舉行, 我們可以期待百度技術團隊屆時的進一步展示。

這里需要多說一句，相較于谷歌BERT，百度的ERNIE做到了后來居上。如果持續關注，會發現百度在自然語言處理領域有非常深厚的積累，其研究成果也已經輻射至不同領域。從百度近期的一系列產品發布中也可得以一窺，ERNIE預訓練技術在百度諸多產品和技術場景的廣泛應用，例如百度搜索、小度音箱、信息流推薦等。

我們期待百度在AI 技術發展上，能夠更進一步。

雷鋒網報道。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。