ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

本文作者：我在思考中

2022-04-28 10:00

專題：ACL 2019

導(dǎo)語：WSD是NLP中一個(gè)重要并且具有NP-hard復(fù)雜度的任務(wù)。

作者 | Antonio

編輯 | 陳彩嫻

ACL 2022已經(jīng)于近期正式在官網(wǎng)上刊登了錄取的文章，其中涉及到詞義消歧（Word Sense Disambiguation, WSD）的文章共有4篇，參考下圖的查詢。

WSD是指識(shí)別出有多個(gè)義項(xiàng)的目標(biāo)詞匯在上下文中的含義，是NLP中一個(gè)重要并且具有NP-hard復(fù)雜度的任務(wù)，不僅可以幫助機(jī)器更好地識(shí)別詞匯語義，還對(duì)機(jī)器翻譯、文本理解等下游任務(wù)起到輔助作用。

本文簡(jiǎn)要整理并介紹其中已經(jīng)公布了論文全文的前三篇，值得注意的是，這三篇都出自同一個(gè)課題組，即來自意大利羅馬一大的Sapienza NLP，導(dǎo)師為Roberto Navigli。

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

（ACL 22上關(guān)于WSD的論文）

WSD真的超過了人類性能了嗎？

論文題目：Nibbling at the Hard Core ofWord Sense Disambiguation

下載鏈接：https://www.researchgate.net/publication/359468349_Nibbling_at_the_Hard_Core_of_Word_Sense_Disambiguation

本文是一篇評(píng)測(cè)以往的WSD方法的分析型論文，并根據(jù)對(duì)于當(dāng)前方法的不足，提出了更加富有挑戰(zhàn)性的數(shù)據(jù)集和評(píng)測(cè)指標(biāo)。具體而言:

1、文章從定性和定量?jī)蓚€(gè)方面，仔細(xì)分析了7個(gè)當(dāng)前最SOTA的模型都會(huì)存在的一些錯(cuò)誤和偏差。這些模型都是經(jīng)典模型，并且在當(dāng)時(shí)達(dá)到過最佳性能。它們分別是基于判別式的ARES，BEM，ESCHER（當(dāng)前SOTA），EWISER， GlossBERT；基于生成式的Generationary；和無監(jiān)督訓(xùn)練的SyntagRank模型。值得注意的是，這7個(gè)模型中有5個(gè)模型是屬于Roberto課題組。

考慮到理想的模型應(yīng)該表現(xiàn)得和人類類似的假設(shè)，現(xiàn)有模型在WSD上犯得很多錯(cuò)誤是低級(jí)和違背常識(shí)的。例如下面的例子：

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

ESCHER是當(dāng)前SOTA模型，在上述對(duì)于母語者看來wind一定不會(huì)是空氣的含義，但模型卻判斷錯(cuò)誤。

從定量的角度，文章重點(diǎn)分析了WSD中非常常見的不平衡問題——最頻繁釋義偏差（MFS）和訓(xùn)練數(shù)據(jù)偏差，即測(cè)試集中存在訓(xùn)練集中從未見過的釋義。這兩個(gè)問題都由知識(shí)不確定性（epistemic uncertainty）導(dǎo)致的。從定性角度，文章則分析了標(biāo)注者偏差，這屬于固有的隨機(jī)不確定性（aleatoric uncertainty），一個(gè)語言學(xué)專家標(biāo)注了測(cè)試集出現(xiàn)的6類偏差，并做了詳細(xì)分析。

2、出于上述偏差的分析，文章也提出了一系列更硬核的評(píng)測(cè)測(cè)試集合，即42D，42個(gè)語言domain，并且對(duì)于那些不常出現(xiàn)的釋義目標(biāo)也做了很好的評(píng)估。

同時(shí)研究者們提出了修正了原有的micro-averaged的F1得分，而變成了macro-average的F1得分。

最后，文章收集了在上述模型中都難以分對(duì)的那些實(shí)例，命名為“hardEN”。換句話說這個(gè)所有的模型對(duì)于這個(gè)測(cè)試集的F1得分都為0。這樣對(duì)于之后模型評(píng)估設(shè)計(jì)了一個(gè)很難的試金石。

用來衡量機(jī)器翻譯中的WSD的測(cè)試基準(zhǔn)

論文題目：DIBIMT: A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation

論文鏈接：https://www.researchgate.net/publication/359280784_DiBiMT_A_Novel_Benchmark_for_Measuring_Word_Sense_Disambiguation_Biases_in_Machine_Translation

一詞多義現(xiàn)象在機(jī)器翻譯中顯得尤為突出，這也是機(jī)器翻譯中常常出現(xiàn)的偏差的原因。文章研究了機(jī)器翻譯中的多義性偏差現(xiàn)象，并且提出了一個(gè)全新的測(cè)試基準(zhǔn)，包含針對(duì)多種語言的測(cè)試集以及評(píng)價(jià)指標(biāo)。具體來看，文章的貢獻(xiàn)有：

1、文章針對(duì)英語作為源語言，五種語言（中文、德文、意大利語、俄羅斯語和西班牙語）作為目標(biāo)語言，標(biāo)注了常見的WSD中出現(xiàn)的帶有歧義詞的正負(fù)樣例，如下圖展示了一個(gè)樣例，顯示了英文中shot在不同語言中的正誤翻譯：

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

文章詳細(xì)描述了句子的收集過程，包括語言庫選擇、句子清洗和過濾、數(shù)據(jù)集標(biāo)注等。下圖展示了數(shù)據(jù)集的標(biāo)注統(tǒng)計(jì)量：

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

其中數(shù)據(jù)集主要收集了名詞和動(dòng)詞。之后由于數(shù)據(jù)集是從BabelNet中收集的，文中則定義了好的和壞的釋義集，并且統(tǒng)計(jì)了多大比例的釋義被標(biāo)注者添加（OG）；多大比例被移除（RG）和兩句例句使用同一釋義的比例（SL），統(tǒng)計(jì)量如下：

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

2、除了準(zhǔn)確率，文章定義了四種全新的評(píng)價(jià)指標(biāo)，用來衡量頻率和詞義的關(guān)系，它們分別是：Sense Frequency Index Influence (SFII)，Sense Polysemy Degree Importance (SPDI)，Most and More Frequent Senses相關(guān)的兩個(gè)MFS和MFS+。

3、文章比較了5類SOTA的機(jī)器翻譯系統(tǒng)，包含兩類商業(yè)系統(tǒng)：DeepL Translator，Google Translator和三類非商業(yè)模型，包含：OPUS，MBart50和M2M100。它們?cè)谖孱愓Z言上的分類結(jié)果參考下圖：

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

從準(zhǔn)確率上可以看出，DeepL的性能要顯著得比其它方法更好。

在細(xì)粒度分析歧義的新指標(biāo)上，也有類似的趨勢(shì)：

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

之后，文章還探討了很多有意思的語言學(xué)分析，比如，是否動(dòng)詞要比名詞更難翻譯？編碼器是否真的可以去歧義等等？有興趣的讀者可以找來文章細(xì)細(xì)閱讀。

代碼和評(píng)測(cè)平臺(tái)之后會(huì)放出：https://nlp.uniroma1.it/dibimt

實(shí)體去歧義任務(wù)的新定義

論文標(biāo)題：ExtEnD: Extractive Entity Disambiguation

論文鏈接：https://www.researchgate.net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation

文章對(duì)WSD內(nèi)的一個(gè)更加細(xì)粒度的實(shí)體去歧義的任務(wù)進(jìn)行了新的方式去定義，即把它當(dāng)作一個(gè)文本抽取的任務(wù)，并且采用兩個(gè)Transformer模型架構(gòu)實(shí)現(xiàn)（命名為EXTEND）。EXTEND在6個(gè)評(píng)價(jià)數(shù)據(jù)庫中有4個(gè)在F1 score上都達(dá)到了SOTA水平。

實(shí)體是指關(guān)系網(wǎng)絡(luò)中的節(jié)點(diǎn)，相比WSD中更加寬泛的詞匯，實(shí)體名詞往往更具有實(shí)際意義，并且更有多義性的可能性，下面展示了一個(gè)例子，選出Metropolis可能指的是哪個(gè)場(chǎng)景下的。

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

具體而言，如下圖，EXTEND架構(gòu)首先將輸入的上下文和所有的候選項(xiàng)拼接在一起，模型的輸出則是目標(biāo)選項(xiàng)的起始和終止的單詞索引。其中，提取特征的部分是Longformer，之后的head采用簡(jiǎn)單的FC輸出每一個(gè)詞匯可能成為起始和終止的概率。

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

事實(shí)上，將WSD定義為這種文本提取的方式在之前的方法ESC和ESCHER中被兩次用到（都是同一位作者），其中的ESCHER方法是當(dāng)前WSD的SOTA方法，這啟發(fā)我們這種截取式方式的有效性。

以下是模型在6個(gè)數(shù)據(jù)集上的表現(xiàn)，它在其中的4個(gè)上面達(dá)到了最優(yōu)的水平。

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個(gè)意大利科研團(tuán)隊(duì)

關(guān)于課題組

如前述所示，這三項(xiàng)工作都是由Roberto Navigli領(lǐng)導(dǎo)的課題組完成的。在WSD領(lǐng)域內(nèi)，該課題組就承包了大半工作，包含模型的提出、新任務(wù)的定義、數(shù)據(jù)集語料庫的建設(shè)、富有啟發(fā)的分析等等。而Roberto本人也一直專注于這一領(lǐng)域，其博士畢業(yè)論文就是關(guān)于WSD的；而實(shí)驗(yàn)室成員的很多研究方向也都幾乎包含這個(gè)領(lǐng)域，這是從不同的角度去挖掘，例如多語等。

這種幾十年如一日的專注確實(shí)很令人敬佩，這可能也是課題組不斷可以產(chǎn)出高質(zhì)量的WSD文章的重要原因。實(shí)驗(yàn)室主頁（http://nlp.uniroma1.it/）就有詳細(xì)的文章介紹，對(duì)這一領(lǐng)域感興趣的同學(xué)一定要隨時(shí)關(guān)注。