成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    本文作者: 我在思考中 2021-10-14 18:44
    導(dǎo)語:在本文中,我們提出一個基于兩類全局特征的表填充三元組抽取模型。
    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    作者 | 張龍輝

    論文鏈接:https://arxiv.org/pdf/2109.06705.pdf

    作者簡介:張龍輝,共同一作。目前為東北大學(xué)知識圖譜研究小組的在讀碩士,導(dǎo)師是任飛亮老師。在EMNLP,CIKM,NLPCC均有論文發(fā)表。研究領(lǐng)域為信息抽取。

    個人主頁:https://zlh-source.github.io/

    導(dǎo)師主頁:http://faculty.neu.edu.cn/renfeiliang



    1

    摘要

    基于表填充的關(guān)系三元組抽取方法由于其良好的性能和從句子中提取復(fù)雜三元組的優(yōu)秀能力而受到越來越多的研究者關(guān)注。然而,這類方法遠(yuǎn)遠(yuǎn)沒有發(fā)揮其全部潛力,因為它們大多只關(guān)注局部特征,而忽略了三元組間的全局關(guān)聯(lián),這使得模型在三元組抽取過程中會忽略某些重要信息。為了克服這一缺陷,我們提出了一種基于全局特征的關(guān)系三元組抽取模型,該模型可以充分捕獲三元組間的全局特征。

    具體而言,我們首先為每個關(guān)系生成一個與之對應(yīng)的表特征。接著,我們將從這些表特征中挖掘關(guān)系間的全局交互特征、以及token pairs之間的全局交互特征。下一步,這兩類全局交互特征將進(jìn)一步融合到各個關(guān)系對應(yīng)的表特征中。以上“生成—挖掘—融合”的過程會執(zhí)行多次,以便使每個關(guān)系對應(yīng)的表特征逐步精細(xì)化。最后,根據(jù)這些表特征,我們可以對每個關(guān)系對應(yīng)的表進(jìn)行填充,并根據(jù)填充結(jié)果而得到具有相應(yīng)關(guān)系的各個三元組結(jié)果。我們在多個benchmark數(shù)據(jù)集上對相應(yīng)方法進(jìn)行了評估,實(shí)驗結(jié)果顯示,我們方法的結(jié)果明顯優(yōu)于多個最新三元組抽取方法。



    2

    引言

    三元組一般以(subject, relation, object)的形式表示客觀存在的一個知識。比如,(中國,首都,北京)可以表示“中國的首都是北京”這一事實(shí)。在三元組中,subject和object均為實(shí)體,relation為關(guān)系。相應(yīng)地,三元組抽取任務(wù)是在給定輸入文本(一般以句子為單位)的條件下,從中自動地抽取出文本所包含的三元組信息。顯然,三元組抽取任務(wù)對于知識圖譜自動構(gòu)建等下游任務(wù)而言至關(guān)重要。

    在各類三元組抽取方法中,基于表填充的方法是目前廣受關(guān)注的一類方法。該類方法的主要特點(diǎn)包括以下兩點(diǎn)。

    • 1)在給定輸入的條件下,該類方法為每一個關(guān)系設(shè)定一個對應(yīng)的表,表的大小為L*L,其中L為輸入文本中包含的token數(shù)。換句話說,如果預(yù)先定義了n個關(guān)系,那么,對于每一個輸入文本,將會有對應(yīng)的n個L*L的關(guān)系表。

    • 2)關(guān)系表中的元素可以稱為對應(yīng)模型所定義的label集,主要用來提示對應(yīng)的一個token pair所具有的可以提示其是否具有對應(yīng)關(guān)系的各類提示信息。比如,我們可以用”HH”來表示某個token_i和token_j均為對應(yīng)關(guān)系的頭實(shí)體(即subject實(shí)體)中的token。

    顯然,如果每個關(guān)系的對應(yīng)表信息都可以準(zhǔn)確的獲得,那么,就可以基于這些表準(zhǔn)確地推導(dǎo)出輸入文本中所具有的三元組信息。因此,基于表填充的三元組抽取方法的關(guān)鍵是有效地進(jìn)行關(guān)系表填充。

    目前,一些基于表填充的方法在多個基線數(shù)據(jù)集上都取得了SOTA的結(jié)果。然而,這些已有方法在進(jìn)行表填充過程中都是以使用下面兩類局部特征為主:

    • 1)在確定某個表元素時,使用該元素所對應(yīng)的token pair信息;

    • 2)在確定某個表元素時,使用已完成填充的歷史表元素信息。

    顯然,這些方法忽略了token pairs之間的全局關(guān)聯(lián)信息以及關(guān)系間的全局關(guān)聯(lián)信息。而這兩類全局特征可以較好的揭示關(guān)系和token pairs之間的差異,既可以通過多方面相互驗證而提高三元組抽取的準(zhǔn)確率,又可以通過幫助推導(dǎo)出新的三元組而提高三元組抽取的召回率。

    比如,給定輸入句子“Edward Thomas and John are from New York City, USA.”,從全局的角度來看,我們可以很容易獲得下面兩類全局信息。首先,三元組(Edward Thomas, live_in, New York)有助于三元組(John, live_in, USA)的提取,反之亦然。這是因為這兩個三元組的(subject, object)對具有類似的屬性,均是以(人名,地名)的形式出現(xiàn),而相同類型的實(shí)體對顯然更容易具有相同或類似的關(guān)系。換句話說,根據(jù)三元組中實(shí)體對信息的屬性可以對獲得到的三元組進(jìn)行進(jìn)一步的驗證以提升準(zhǔn)確度。其次,通過上面兩個三元組有助于推導(dǎo)出新的三元組(New York, located_in, USA)。這是因為:

    • (1)locate_in關(guān)系要求其對應(yīng)的兩個實(shí)體均與locations相關(guān);

    • (2)locate_in與live_in在語義上具有一定的相關(guān)性;

    • (3)live_in關(guān)系要求其對應(yīng)的object實(shí)體為locations。

    這樣,在已知的兩個三元組和未知的三元組之間可以確立一條清晰的推導(dǎo)路徑。顯然,這兩類重要的全局特征信息不可能被現(xiàn)有方法中使用的局部特征所包含。受此啟發(fā),本文的方法主要是通過挖掘、使用上面提到的兩類全局特征進(jìn)行三元組抽取。


    3

    方法介紹

    通過前面的介紹我們可以知道,在基于表填充的三元組抽取模型中,首要任務(wù)就是為關(guān)系表定義合適的label集,每個label均用來表示一個token pair(這里記為(wi,wj))所在某個關(guān)系對應(yīng)的表中所具有的和三元組相關(guān)的某些屬性。

    在本文中,我們定義的label集為:{"N/A", "MMH", "MMT", "MSH", "MST", "SMH", "SMT", "SS"}。其中標(biāo)簽{"MMH", "MMT", "MSH", "MST", "SMH", "SMT"}等均由三個字母組成,第一個字母為M或S時,代表單詞對中wi是subject中的某個單詞,并且subject是由多個單詞或單個單詞組成的實(shí)體。第二個字母與第一個字母類似,只是該字母是關(guān)于object和wj的相關(guān)信息的描述。第三個字母H或T代表該單詞對分別是subject和object的開頭或結(jié)尾。而”SS”標(biāo)簽表示該單詞對就是實(shí)體對,即為兩個實(shí)體均只有一個單詞。N/A標(biāo)簽即為其它情況。

    和已有的表填充方法相比,本文設(shè)計的label集的一大特點(diǎn)是可以大幅減少模型需要填充的元素個數(shù)(詳細(xì)情況可以參考論文中對應(yīng)的分析部分)。

    模型結(jié)構(gòu)

    我們模型的結(jié)構(gòu)如下圖1所示,主要包含4個模塊:Encoder模塊、表特征生成模塊、全局特征挖掘模塊、以及三元組生成模塊。

    給定一個輸入句子,我們首先對其進(jìn)行編碼,抽取出句子特征。

    之后,句子特征被輸入進(jìn)表特征生成模塊中,生成初始的表特征。

    接著全局特征挖掘器利用max pooling和transformer進(jìn)行表格和句子的交互,用以捕獲全局特征,并將全局特征和句子特征進(jìn)行信息融合作為下一次迭代時的句子特征輸入進(jìn)表特征生成模塊。至此,整個迭代過程形成了一個閉環(huán)。

    經(jīng)過多次迭代后,每個表對應(yīng)的特征將被逐漸細(xì)化,我們依據(jù)最后一次迭代生成的表特征使用三元組抽取器進(jìn)行表填充和表解碼以得到最終的三元組結(jié)果。

    這里,我們忽略了各個模塊中的具體過程,讀者可通過閱讀原文獲取詳細(xì)信息。

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    圖1.模型結(jié)構(gòu)圖

    表解碼策略

    對于每一個關(guān)系,當(dāng)完成對其對應(yīng)的表填充后,需根據(jù)填充結(jié)果進(jìn)行解碼,以得到具有該關(guān)系的三元組結(jié)果。當(dāng)對所有關(guān)系的表解碼完成后,輸入句子所具有的所有三元組信息也相應(yīng)的獲取完成。

    在本文中,我們主要通過確定實(shí)體對的開始和結(jié)束位置來進(jìn)一步確定所有的關(guān)系三元組。同時,為了應(yīng)對實(shí)體嵌套的問題,在該階段我們設(shè)計了三種解碼策略:正向搜索,反向搜索和“SS”標(biāo)簽的搜索(分別對應(yīng)下面圖2中的紅線,綠線和藍(lán)線)。

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    圖2.表的填充和解碼示意圖



    4

    實(shí)驗

    論文使用NYT29,NYT24和WebNLG數(shù)據(jù)集進(jìn)行性能測試。整體實(shí)驗結(jié)果和消融實(shí)驗結(jié)果如表1所示。結(jié)果顯示,相較于之前的最佳三元組抽取模型,本文提出模型的性能在三個數(shù)據(jù)集上均有明顯提升。其中,在WebNLG上的提升幅度最為明顯,我們認(rèn)為,這主要是因為WebNLG數(shù)據(jù)集中包含更多種關(guān)系,這也意味著三元組之間的全局特征也更多。因而,該數(shù)據(jù)集可以使我們的方法發(fā)揮更大功效。

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    表1.整體實(shí)驗及消融實(shí)驗結(jié)果

    在本文所提的模型中,存在一個迭代過程,因而研究者會擔(dān)心其效率。為此,我們進(jìn)行了兩部分實(shí)驗來評估其執(zhí)行效率。

    首先,我們對模型的性能與迭代次數(shù)的關(guān)聯(lián)進(jìn)行了評估,結(jié)果如圖3所示。從中我們可以發(fā)現(xiàn)兩個重要的結(jié)論。

    • (1)在一定范圍內(nèi),隨著迭代次數(shù)的增多,模型性能也會逐漸上升,并且在模型在迭代兩次時,性能漲幅最大,而此時正是全局特征首次參與運(yùn)算。因此,這個實(shí)驗結(jié)果證明了捕獲全局特征的重要性。

    • (2)通過該實(shí)驗結(jié)果,我們可以清晰的看到,模型僅需迭代較少的次數(shù)就可以達(dá)到最佳性能。比如,在相對簡單的NYT*和WebNLG*數(shù)據(jù)集上,只需迭代兩次即可達(dá)到最佳性能;而在其它相對復(fù)雜的數(shù)據(jù)集上,也僅需迭代3、或4次即可得到最佳性能。更重要的是,從中可以看出,即使只迭代2次,本文模型所對應(yīng)的性能也超過了之前所有的模型。

    這些結(jié)果顯示,本文方法中的迭代環(huán)節(jié)不會成為模型運(yùn)行的負(fù)擔(dān)。

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    圖3.迭代次數(shù)與模型性能的關(guān)聯(lián)

    首先,我們比較了一些當(dāng)前最佳模型的參數(shù)效率,結(jié)果如下表2所示。從中可以看出,與同樣使用Transformer的SPN模型相比,我們的模型具有更少的參數(shù)。而且,從encoder參數(shù)所占的比例來看,我們模型的迭代部分并沒有引入更多的參數(shù)。因此,從該實(shí)驗結(jié)果我我們可以得出結(jié)論,本文所提的模型具有極強(qiáng)的參數(shù)效率:可以在較少的參數(shù)條件下達(dá)到更好的性能。此外,本文模型的另外一個優(yōu)勢在于其可以在較短的時間內(nèi)完成訓(xùn)練。因為本文模型的epoch設(shè)置為50,而其它所有對比模型的epoch均設(shè)置為100。而從表2的推導(dǎo)時間可以看出,不同模型的推導(dǎo)時間基本接近。而模型訓(xùn)練時間與推導(dǎo)時間存在一定的正向關(guān)聯(lián),因而,較少的epoch意味著更快的訓(xùn)練速度。

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    表2.參數(shù)效率比較

    通過上面兩類實(shí)驗,我們可以得出結(jié)論,雖然本文模型中有迭代環(huán)節(jié),但并沒有因此而導(dǎo)致效率低下,相反,通過有效地進(jìn)行全局特征挖掘,本文方法可以在較少的迭代次數(shù)下獲取最佳的實(shí)驗性能。



    5

    結(jié)語

    在本文中,我們提出一個基于兩類全局特征的表填充三元組抽取模型。實(shí)驗結(jié)果顯示,這兩類全局特征對于提升模型的準(zhǔn)確率、召回率均有較大幫助。相應(yīng)地,本文所提出的模型在多個基線數(shù)據(jù)集上均取得了最佳性能。并且,本文所提模型還具有參數(shù)量適中、參數(shù)效率高的特點(diǎn),是一種高效的三元組抽取模型

    還有疑問?點(diǎn)擊視頻觀看詳細(xì)講解:

    添加小助手微信(AIyanxishe3),備注EMNLP2021拉你進(jìn)群

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    雷鋒網(wǎng)


    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    EMNLP2021 | 東北大學(xué)提出:一種基于全局特征的新型表填充關(guān)系三元組抽取模型

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說