EMNLP2021 | 東北大學(xué)提出：一種基于全局特征的新型表填充關(guān)系三元組抽取模型

本文作者：我在思考中

2021-10-14 18:44

導(dǎo)語：在本文中，我們提出一個基于兩類全局特征的表填充三元組抽取模型。

EMNLP2021 | 東北大學(xué)提出：一種基于全局特征的新型表填充關(guān)系三元組抽取模型

作者 | 張龍輝

論文鏈接：https://arxiv.org/pdf/2109.06705.pdf

作者簡介：張龍輝，共同一作。目前為東北大學(xué)知識圖譜研究小組的在讀碩士，導(dǎo)師是任飛亮老師。在EMNLP,CIKM,NLPCC均有論文發(fā)表。研究領(lǐng)域為信息抽取。

個人主頁：https://zlh-source.github.io/

導(dǎo)師主頁：http://faculty.neu.edu.cn/renfeiliang

摘要

基于表填充的關(guān)系三元組抽取方法由于其良好的性能和從句子中提取復(fù)雜三元組的優(yōu)秀能力而受到越來越多的研究者關(guān)注。然而，這類方法遠(yuǎn)遠(yuǎn)沒有發(fā)揮其全部潛力，因為它們大多只關(guān)注局部特征，而忽略了三元組間的全局關(guān)聯(lián)，這使得模型在三元組抽取過程中會忽略某些重要信息。為了克服這一缺陷，我們提出了一種基于全局特征的關(guān)系三元組抽取模型，該模型可以充分捕獲三元組間的全局特征。

具體而言，我們首先為每個關(guān)系生成一個與之對應(yīng)的表特征。接著，我們將從這些表特征中挖掘關(guān)系間的全局交互特征、以及token pairs之間的全局交互特征。下一步，這兩類全局交互特征將進(jìn)一步融合到各個關(guān)系對應(yīng)的表特征中。以上“生成—挖掘—融合”的過程會執(zhí)行多次，以便使每個關(guān)系對應(yīng)的表特征逐步精細(xì)化。最后，根據(jù)這些表特征，我們可以對每個關(guān)系對應(yīng)的表進(jìn)行填充，并根據(jù)填充結(jié)果而得到具有相應(yīng)關(guān)系的各個三元組結(jié)果。我們在多個benchmark數(shù)據(jù)集上對相應(yīng)方法進(jìn)行了評估，實(shí)驗結(jié)果顯示，我們方法的結(jié)果明顯優(yōu)于多個最新三元組抽取方法。

引言

三元組一般以(subject, relation, object)的形式表示客觀存在的一個知識。比如，(中國，首都，北京)可以表示“中國的首都是北京”這一事實(shí)。在三元組中，subject和object均為實(shí)體，relation為關(guān)系。相應(yīng)地，三元組抽取任務(wù)是在給定輸入文本（一般以句子為單位）的條件下，從中自動地抽取出文本所包含的三元組信息。顯然，三元組抽取任務(wù)對于知識圖譜自動構(gòu)建等下游任務(wù)而言至關(guān)重要。

在各類三元組抽取方法中，基于表填充的方法是目前廣受關(guān)注的一類方法。該類方法的主要特點(diǎn)包括以下兩點(diǎn)。

1）在給定輸入的條件下，該類方法為每一個關(guān)系設(shè)定一個對應(yīng)的表，表的大小為L*L，其中L為輸入文本中包含的token數(shù)。換句話說，如果預(yù)先定義了n個關(guān)系，那么，對于每一個輸入文本，將會有對應(yīng)的n個L*L的關(guān)系表。
2）關(guān)系表中的元素可以稱為對應(yīng)模型所定義的label集，主要用來提示對應(yīng)的一個token pair所具有的可以提示其是否具有對應(yīng)關(guān)系的各類提示信息。比如，我們可以用”HH”來表示某個token_i和token_j均為對應(yīng)關(guān)系的頭實(shí)體(即subject實(shí)體)中的token。

顯然，如果每個關(guān)系的對應(yīng)表信息都可以準(zhǔn)確的獲得，那么，就可以基于這些表準(zhǔn)確地推導(dǎo)出輸入文本中所具有的三元組信息。因此，基于表填充的三元組抽取方法的關(guān)鍵是有效地進(jìn)行關(guān)系表填充。

目前，一些基于表填充的方法在多個基線數(shù)據(jù)集上都取得了SOTA的結(jié)果。然而，這些已有方法在進(jìn)行表填充過程中都是以使用下面兩類局部特征為主：

1）在確定某個表元素時，使用該元素所對應(yīng)的token pair信息；
2）在確定某個表元素時，使用已完成填充的歷史表元素信息。

顯然，這些方法忽略了token pairs之間的全局關(guān)聯(lián)信息以及關(guān)系間的全局關(guān)聯(lián)信息。而這兩類全局特征可以較好的揭示關(guān)系和token pairs之間的差異，既可以通過多方面相互驗證而提高三元組抽取的準(zhǔn)確率，又可以通過幫助推導(dǎo)出新的三元組而提高三元組抽取的召回率。

比如，給定輸入句子“Edward Thomas and John are from New York City, USA.”，從全局的角度來看，我們可以很容易獲得下面兩類全局信息。首先，三元組(Edward Thomas, live_in, New York)有助于三元組(John, live_in, USA)的提取，反之亦然。這是因為這兩個三元組的(subject, object)對具有類似的屬性，均是以(人名，地名)的形式出現(xiàn)，而相同類型的實(shí)體對顯然更容易具有相同或類似的關(guān)系。換句話說，根據(jù)三元組中實(shí)體對信息的屬性可以對獲得到的三元組進(jìn)行進(jìn)一步的驗證以提升準(zhǔn)確度。其次，通過上面兩個三元組有助于推導(dǎo)出新的三元組(New York, located_in, USA)。這是因為：

(1)locate_in關(guān)系要求其對應(yīng)的兩個實(shí)體均與locations相關(guān)；
(2)locate_in與live_in在語義上具有一定的相關(guān)性；
(3)live_in關(guān)系要求其對應(yīng)的object實(shí)體為locations。

這樣，在已知的兩個三元組和未知的三元組之間可以確立一條清晰的推導(dǎo)路徑。顯然，這兩類重要的全局特征信息不可能被現(xiàn)有方法中使用的局部特征所包含。受此啟發(fā)，本文的方法主要是通過挖掘、使用上面提到的兩類全局特征進(jìn)行三元組抽取。

方法介紹

通過前面的介紹我們可以知道，在基于表填充的三元組抽取模型中，首要任務(wù)就是為關(guān)系表定義合適的label集，每個label均用來表示一個token pair(這里記為(wi，wj))所在某個關(guān)系對應(yīng)的表中所具有的和三元組相關(guān)的某些屬性。

在本文中，我們定義的label集為：{"N/A", "MMH", "MMT", "MSH", "MST", "SMH", "SMT", "SS"}。其中標(biāo)簽{"MMH", "MMT", "MSH", "MST", "SMH", "SMT"}等均由三個字母組成，第一個字母為M或S時，代表單詞對中wi是subject中的某個單詞，并且subject是由多個單詞或單個單詞組成的實(shí)體。第二個字母與第一個字母類似，只是該字母是關(guān)于object和wj的相關(guān)信息的描述。第三個字母H或T代表該單詞對分別是subject和object的開頭或結(jié)尾。而”SS”標(biāo)簽表示該單詞對就是實(shí)體對，即為兩個實(shí)體均只有一個單詞。N/A標(biāo)簽即為其它情況。

和已有的表填充方法相比，本文設(shè)計的label集的一大特點(diǎn)是可以大幅減少模型需要填充的元素個數(shù)(詳細(xì)情況可以參考論文中對應(yīng)的分析部分)。

模型結(jié)構(gòu)

我們模型的結(jié)構(gòu)如下圖1所示，主要包含4個模塊：Encoder模塊、表特征生成模塊、全局特征挖掘模塊、以及三元組生成模塊。

給定一個輸入句子，我們首先對其進(jìn)行編碼，抽取出句子特征。

之后，句子特征被輸入進(jìn)表特征生成模塊中，生成初始的表特征。

接著全局特征挖掘器利用max pooling和transformer進(jìn)行表格和句子的交互，用以捕獲全局特征，并將全局特征和句子特征進(jìn)行信息融合作為下一次迭代時的句子特征輸入進(jìn)表特征生成模塊。至此，整個迭代過程形成了一個閉環(huán)。

經(jīng)過多次迭代后，每個表對應(yīng)的特征將被逐漸細(xì)化，我們依據(jù)最后一次迭代生成的表特征使用三元組抽取器進(jìn)行表填充和表解碼以得到最終的三元組結(jié)果。

這里，我們忽略了各個模塊中的具體過程，讀者可通過閱讀原文獲取詳細(xì)信息。

圖1.模型結(jié)構(gòu)圖

表解碼策略

對于每一個關(guān)系，當(dāng)完成對其對應(yīng)的表填充后，需根據(jù)填充結(jié)果進(jìn)行解碼，以得到具有該關(guān)系的三元組結(jié)果。當(dāng)對所有關(guān)系的表解碼完成后，輸入句子所具有的所有三元組信息也相應(yīng)的獲取完成。

在本文中，我們主要通過確定實(shí)體對的開始和結(jié)束位置來進(jìn)一步確定所有的關(guān)系三元組。同時，為了應(yīng)對實(shí)體嵌套的問題，在該階段我們設(shè)計了三種解碼策略：正向搜索，反向搜索和“SS”標(biāo)簽的搜索（分別對應(yīng)下面圖2中的紅線，綠線和藍(lán)線）。

圖2.表的填充和解碼示意圖

實(shí)驗

論文使用NYT29,NYT24和WebNLG數(shù)據(jù)集進(jìn)行性能測試。整體實(shí)驗結(jié)果和消融實(shí)驗結(jié)果如表1所示。結(jié)果顯示，相較于之前的最佳三元組抽取模型，本文提出模型的性能在三個數(shù)據(jù)集上均有明顯提升。其中，在WebNLG上的提升幅度最為明顯，我們認(rèn)為，這主要是因為WebNLG數(shù)據(jù)集中包含更多種關(guān)系，這也意味著三元組之間的全局特征也更多。因而，該數(shù)據(jù)集可以使我們的方法發(fā)揮更大功效。

表1.整體實(shí)驗及消融實(shí)驗結(jié)果

在本文所提的模型中，存在一個迭代過程，因而研究者會擔(dān)心其效率。為此，我們進(jìn)行了兩部分實(shí)驗來評估其執(zhí)行效率。

首先，我們對模型的性能與迭代次數(shù)的關(guān)聯(lián)進(jìn)行了評估，結(jié)果如圖3所示。從中我們可以發(fā)現(xiàn)兩個重要的結(jié)論。

(1)在一定范圍內(nèi)，隨著迭代次數(shù)的增多，模型性能也會逐漸上升，并且在模型在迭代兩次時，性能漲幅最大，而此時正是全局特征首次參與運(yùn)算。因此，這個實(shí)驗結(jié)果證明了捕獲全局特征的重要性。
(2)通過該實(shí)驗結(jié)果，我們可以清晰的看到，模型僅需迭代較少的次數(shù)就可以達(dá)到最佳性能。比如，在相對簡單的NYT*和WebNLG*數(shù)據(jù)集上，只需迭代兩次即可達(dá)到最佳性能；而在其它相對復(fù)雜的數(shù)據(jù)集上，也僅需迭代3、或4次即可得到最佳性能。更重要的是，從中可以看出，即使只迭代2次，本文模型所對應(yīng)的性能也超過了之前所有的模型。

這些結(jié)果顯示，本文方法中的迭代環(huán)節(jié)不會成為模型運(yùn)行的負(fù)擔(dān)。

圖3.迭代次數(shù)與模型性能的關(guān)聯(lián)

首先，我們比較了一些當(dāng)前最佳模型的參數(shù)效率，結(jié)果如下表2所示。從中可以看出，與同樣使用Transformer的SPN模型相比，我們的模型具有更少的參數(shù)。而且，從encoder參數(shù)所占的比例來看，我們模型的迭代部分并沒有引入更多的參數(shù)。因此，從該實(shí)驗結(jié)果我我們可以得出結(jié)論，本文所提的模型具有極強(qiáng)的參數(shù)效率：可以在較少的參數(shù)條件下達(dá)到更好的性能。此外，本文模型的另外一個優(yōu)勢在于其可以在較短的時間內(nèi)完成訓(xùn)練。因為本文模型的epoch設(shè)置為50，而其它所有對比模型的epoch均設(shè)置為100。而從表2的推導(dǎo)時間可以看出，不同模型的推導(dǎo)時間基本接近。而模型訓(xùn)練時間與推導(dǎo)時間存在一定的正向關(guān)聯(lián)，因而，較少的epoch意味著更快的訓(xùn)練速度。

表2.參數(shù)效率比較

通過上面兩類實(shí)驗，我們可以得出結(jié)論，雖然本文模型中有迭代環(huán)節(jié)，但并沒有因此而導(dǎo)致效率低下，相反，通過有效地進(jìn)行全局特征挖掘，本文方法可以在較少的迭代次數(shù)下獲取最佳的實(shí)驗性能。

結(jié)語

在本文中，我們提出一個基于兩類全局特征的表填充三元組抽取模型。實(shí)驗結(jié)果顯示，這兩類全局特征對于提升模型的準(zhǔn)確率、召回率均有較大幫助。相應(yīng)地，本文所提出的模型在多個基線數(shù)據(jù)集上均取得了最佳性能。并且，本文所提模型還具有參數(shù)量適中、參數(shù)效率高的特點(diǎn)，是一種高效的三元組抽取模型。

還有疑問？點(diǎn)擊視頻觀看詳細(xì)講解：

添加小助手微信（AIyanxishe3），備注EMNLP2021拉你進(jìn)群

EMNLP2021 | 東北大學(xué)提出：一種基于全局特征的新型表填充關(guān)系三元組抽取模型