搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

本文作者：楊曉凡

2019-05-12 18:40

導語：矯正現有算法的多種問題

雷鋒網 AI 科技評論按：近年來，隨著機器閱讀理解技術的發展，越來越多的開放域問答方法采用了機器閱讀理解技術生成答案。然而，傳統基于機器閱讀理解的開放域問答技術存在數據噪聲大、答案概率偏置等問題，使得最后產生的答案效果欠佳。

搜狗公司 & 中科院自動化所在信息檢索領域頂級會議 SIGIR 2019 （CCF A 類會議）中聯合提出了一個基于文檔門控機制的閱讀算法，并將其用在開放域問答中，在很多開放域問答應用中取得了最好的效果。搜狗公司為這篇論文《Document Gated Reader for Open-Domain Question Answering》撰寫了中文解讀文章，雷鋒網 AI 科技評論摘錄如下。

基于機器閱讀理解的開放域問答

開放域問答（open-domain question answering）技術旨在給定任意類型的問題后，從任意資源中取得答案。傳統的開放域問答大多采用 pipeline 的方式，即先通過檢索系統找到跟問題相關的文檔，再通過問答技術從文檔中產生答案。最近幾年，隨著機器閱讀理解技術的發展，越來越多開放域問答的方法引入機器閱讀理解技術來抽取答案。例如，在 ACL2017 上斯坦福大學提出了一種神經開放域問答框架，如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

圖一：基于機器閱讀理解技術的開放域問答框架

以往的基于機器閱讀理解的技術往往存在兩個問題：首先，以往的方法大多是弱監督地根據問題找到的相關文檔，然后將包含有正確答案的文檔當做真正的文檔來訓練，而通過這種弱監督獲取到的數據往往包含有錯誤的文檔（false positive），例如下面這個例子：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

圖二：弱監督獲取文檔中包含的噪聲

其中文檔一包含了正確答案（Lebron James），但是卻和問題不相關。文檔二雖然包含了多個正確答案的，但是其中很多都不能用來回答問題。

其次，很多以前的方法都沒有考慮到答案概率的歸一化：每一篇文檔單獨抽出來一個答案，以及這個答案的概率，最后各個文章的中的答案直接比較概率得到最終的答案，然而，這種過程會存在嚴重的答案概率偏置問題，如下面這個例子：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

圖三：文檔答案概率偏置問題

這兩篇文章中，雖然文檔 1 是真正可以回答問題的。而且，文檔選擇模型給出的文檔 1 的概率也大于文檔 2 的概率（0.7>0.3）。但是，由于文檔 1 相對較長，所以其中的最佳答案概率在經過文檔歸一化之后變得相對較低，而由于文檔 2 比較短，并且其中的候選答案很少，所以答案 2 的概率在歸一化后相對較高。這樣，在經過了文檔檢索和閱讀理解兩個步驟之后，答案 2 的概率會大于答案 1 的概率。這種現象稱為答案概率的偏置。

基于文檔門控機制的閱讀器

首先，針對答案概率偏置問題，本文設計了一種專門針對開放域問答對文檔門控機制的閱讀器。這個模型建立在傳統機器閱讀理解模型上，引入了文檔控制器來控制最終答案的輸出，整體模型如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

圖四：基于文檔門控機制的閱讀器

其中，文檔和問題的建模過程和傳統的機器閱讀理解模型類似，是基于注意力機制的雙向 LSTM。包含有詞表示層，低級表示層，問題關注層，高級表示層以及答案輸出層。

和以往的模型不同，在表示的過程中，我們加入了一個文檔控制門（Document Gate），用以將文檔選擇信息引入到最終的結果中去。這個文檔控制門會輸出一個 0-1 的分數，用以影響最后生成的答案的概率。

其中的文檔控制器作用在問題的低級表示和文檔的高級表示之上，如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

圖五：文檔控制器

其中K為候選文檔的個數。可以看到，通過最上層的雙向LSTM，各個文檔之間的信息也聯系了起來。最后的文檔分數g是包含有上下文文檔的得分，因而表示相關性能力更強。

最后，在訓練的時候，為了避免答案概率的偏置問題，本文采用了一種全局歸一化的目標函數：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

可以看到正確答案的得分和所有答案的得分進行了比較，所以這種優化目標會使最終正確答案的分數是全局最高的。

基于自舉法的弱監督數據生成

為了解決傳統弱監督數據中存在的噪聲較大的問題，我們使用了一種基于自舉法（bootstrapping）的數據生成方法。具體來說，我們首先根據一些置信度較高的數據當成種子數據，例如，在 SQuAD 中種子數據可以是提供的最佳答案，在一些其他類型數據中可以是經過檢索模型打分最高的。然后，在這個種子模型中我們預訓練我們的模型，然后依靠上述的文檔控制器的得分可以從未標注的弱監督數據中選擇出分數較高的文檔，加入到訓練集里面繼續訓練。整個過程如下：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

實驗

本文采用了四個被經常使用的數據用以評估所提出的模型，分別是 SQuAD, SearchQA, WebQuestions, WikiMovies。關于這幾個數據集的一些信息如下表：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

本文提出的模型和以往的一些模型的效果對比如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

可以看出來，本文提出的模型的在所有數據上都取得了較以往模型顯著的提升。

為了評估引入的文檔控制門對文檔選擇的作用，我們在 SQuAD 數據上來評估我們模型的效果。通過兩個指標可以判斷出文檔選擇的效果：P@N:即通過文檔選擇的前 N 個文檔中是否包含最佳文檔。AR:在返回的文檔中最佳文檔的平均位置。各種模型的文檔選擇結果如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

可以看到，對于文檔選擇來說，我們提出的文檔控制器能夠有效地選擇出正確文檔，選擇的效果大大優于以往的方法。

本文的一個貢獻是在訓練目標中使用了全局歸一化因子，因此，我們對這個全局歸一化因子進行衡量，我們評估不同的模型在加入不同數目的噪聲后的表現，其結果如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

可以看到，不同的模型在加入噪聲文檔之后，沒有用全局歸一化的模型效果顯著地降低，這個現象也被很多以前的多文檔問答工作所證實。而由于我們使用了全局歸一化進行訓練，因此模型受噪聲影響較小。

最后，為了評估本文所提出的自舉法的數據效果，我們評估在自舉法不斷進行的過程中模型的表現，其結果如下圖：

搜狗攜手自動化所提出新的開放領域問答機器閱讀算法

可以看到，在新數據不斷加入之后，模型的效果不斷提升，這也從另一方面說明了當模型效果很好的時候，基于模型選擇出的數據包含有更豐富的模式，使在其上訓練的模型表現更好。

總結

本文提出了一種基于文檔門控選擇的開放域問答模型。針對以往方法中存在的答案偏置問題本文提出了一種文檔門控選擇器用以確定文檔分數，并且使用全局歸一化目標進行優化。針對傳統方法中存在弱監督數據噪聲過多的問題，我們使用了一種基于自舉法的數據增強方法用以改進擴展訓練數據，在實驗中我們發現本文提出的方法能夠有效地選擇出相應文檔，并且對噪聲文檔的地抗能力更強，在很多開放域問答數據中本文提出的方法都取得了最好的效果。

更多人工智能相關報道請繼續關注雷鋒網 AI 科技評論。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章