對話程序主席黃萱菁：EMNLP從投稿到接收，我們是如何工作的

本文作者：我在思考中

2021-11-24 18:31

導語：EMNLP希望引導學者利用NLP技術去做一些真正提升社會價值的工作。

作者 | 琰琰

編輯 | 青暮

近日EMNLP 2021在多米尼加共和國閉幕，今年EMNLP收到有效投稿3717篇，中國大陸投稿1137篇，接收207篇，接受率為18%。作為NLP四大頂會之一，EMNLP備受國內學者青睞，投稿量連續多年超過美國位居榜首。

EMNLP 由國際自然語言學會（ACL）下屬的 SIGDAT 數據小組創辦，在全球NLP頂會排行榜上位居第二，會議質量僅次于ACL。比較而言，ACL會議歷史悠久，兼顧語言探索與經驗方法，是綜合質量最高的會議；EMNLP更聚焦NLP算法在各個領域解決方案的學術探討，定位更加強調工程化，二者可謂互補。

隨著AI頂會投稿量的持續增長，EMNLP的審稿質量和公平性問題成為學者們關心的話題。近日，AI科技評論對話EMNLP 2021程序主席黃萱菁教授，圍繞EMNLP投稿趨勢，審稿流程與標準、學生應該如何投稿”等話題與之進行了交流。

對話程序主席黃萱菁：EMNLP從投稿到接收，我們是如何工作的

黃萱菁，現任復旦大學教授，主要研究自然語言處理、信息檢索和社會媒體分析，在相關國際學術期刊和會議上發表論文130多篇，負責的多個科研項目受到國家自然科學基金、科技部、教育部、上海市科委的支持。

在自然語言處理領域，黃萱菁已多次擔任各大國內和國際學術會議擔任重要職務，包括2014年ACM國際信息與知識管理會議競賽主席，2015年ACM國際互聯網搜索與數據挖掘會議共同組織者，2015年全國社會媒體處理大會程序委員會副主席，2016年、2019年全國計算語言學會議程序委員會副主席，2017年國際自然語言處理與中文計算會議程序委員會主席，2020年國際自然語言處理與中文計算會議大會主席，2021年EMNLP程序委員會主席；并長期在人工智能、自然語言處理和信息檢索的各大國際學術會議擔任程序委員會委員、資深委員和領域主席。

AI科技評論：EMNLP 2021的審稿流程是怎樣的，您作為程序主席主要負責哪些工作？

實際上EMNLP 2020 結束后，2021年的籌備工作就已經開始了。整整一年下來工作量還是非常大的，尤其是Deadline和錄用前后，是最忙的兩個時間段。今年我們有三位共同程序主席，除了我之外，還有倫敦帝國理工學院的Lucia Specia教授，Facebook高級研究員Scott Yih。在前期準備工作上，第一項任務就是發布征稿通知，包括確定投稿領域、時間節點等具體事項。

在投稿領域上，我們的基本原則是領域范圍要適中，具有多樣性和新穎性。比如機器學習、自然語言處理應用近兩年非常熱門，投稿量很大，有些會議會拆分成預訓練和分類兩塊小領域。另外，我們也會拓展一些小眾的前沿領域，比如自然語言處理的倫理和效率，這些領域是需要鼓勵的，我們希望引導學者做綠色NLP，做環境友好的NLP。

征稿通知發布后，開始邀請高級領域主席，確定EMNLP委員會結構。一般小領域會安排1位領域主席，大領域安排3-4位。先是從世界范圍內評選出一批知名的NLP學者，然后綜合性別平衡、區域平衡、學術與產業平衡等指標進行二次篩選，確保SAC人選的多樣性。在區域平衡這里，我們覆蓋了三大洲，包括美洲（北美、南美）、亞太（中國、澳大利亞、新西蘭等地區）、歐洲和非洲。然后重新修訂審稿規范和指南，這是初期準備階段最重要的一項工作。

征稿流程啟動后，從作者投稿、審稿人評審、author response、最終決策等整個流程我們都會介入。按照領域劃分，我們三位程序主席，大概每人分管1000份論文左右（共提交3000+篇）。進入錄用階段后，AC和SAC會向我們提交綜合評價和推薦意見。在這些評審結果中，我們會重點關注那些AC和SAC認為“可上可下”的論文，也就說，一篇論文是被頂會收錄，還是進入Findings；是入選Findings，還是被拒，這個主要由我們來決定的。因為高級領域主席只關注特定領域，我們能從更全局視角，平衡所有論文的情況。

AI科技評論：EMNLP如何評選審稿人和保證審稿質量？您如何看待投稿量與審稿人不平衡的問題？

EMNLP 2021有將近4000名審稿人。我們先是參考ACL等其它頂會創建了一個9000人的審稿人池子，大概有4000多人接受了審稿邀請，然后高級領域主席根據其他客觀指標做了一些增刪處理，確定了最終的審稿人名單。

我們邀請的審稿人除了NLP領域知名的教授、學者，還有一些在讀博士生和碩士生，當然他們都需要在頂會上至少發表3-4篇文章。今年整體評審下來，我們發現很多初次評審的博士生很活躍，審稿質量不比其他人差。

其實不僅是EMNLP，很多頂會都面臨審稿人緊缺的問題。投稿量每年都在增加，如果不增加審稿人，現有審稿人的工作量和壓力就會非常大，也會影響審稿的質量。所以在保證專業能力的基礎上，擴大審稿人的評選范圍是一個不錯的選擇。

今年EMNLP收到3000多篇有效論文，每篇論文會分配3-4名審稿人。我們會根據審稿人所在的高校、職位、論文發表數量等指標判定其資深程度，然后合理分配審稿人，基本可以保證每篇論文都有資深學者參與。

對于評審質量，領域主席會進行人工評估，推薦一批優秀的審稿人。我們也會采用自動化程序評判審稿質量，比如哪篇審稿意見過于簡短，綜合評價是否全面等等。另外，審稿人和領域主席也會評估論文是不是有潛在的倫理風險。有潛在風險并且作者在論文中沒有給出倫理和影響力聲明的論文會提交給專門的倫理委員會評審，今年接受倫理評審的論文大概有200多篇。

AI科技評論：EMNLP如何匹配審稿人與論文？對于社交媒體上存在的“審稿人不專業”的質疑，您怎么看？

過去很多會議的論文分配方式都是審稿人自己去競標，這里面存在的一個問題就是，審稿人可能會出于興趣選擇論文，而不是自己的研究方向，這在一定程度上會影響評審質量。所以近幾年我們取消了論文投標的方式，利用NLP技術去自動化匹配審稿人和論文。

凡是被邀請的審稿人已經發表了不少頂會文章，我們采用的NLP算法會搜集和分析這些文章的標題和摘要，并訓練出一個語義表示模型，這樣我們就可以了解審稿人擅長的研究方向。用這些特長再去和投稿論文的摘要做匹配，可以最大限度地避免“不匹配”的問題，提高審稿的公平性。

自動分配只是一個基礎，領域主席和高級領域主席還會做進一步的調整，剛剛我們提到，一篇論文的審稿人不能全是資歷淺的年輕人，為了兼顧比例平衡，他們會推薦一些資深學者，因為不同經驗的審稿人看文章的角度是不一樣的。這項工作之所以由領域主席來負責，是因為他們與審稿人是小同行，更能做出精準的調整。

另外，論文作者、審稿人以及領域主席對于高級領域主席來說都是公開的，所以他們也會檢查這些人是否來自同一個大學或者存在合作關系，避免利益沖突的問題。總之，系統自動分配結合領域主席調整的方式分配論文，基本能夠解決審稿人推薦不對口，不公平的問題。

AI科技評論：EMNLP是否存在“SOTA決定論”的現象，就是說只要論文沒有超過現有研究的SOTA就會被拒掉，或者打低分。您如何看待這種性能指標對論文質量的影響？

我們之前在審稿規范上就有提出不能搞SOTA論，不能因為這項研究沒有超過現有研究的性能就打低分。在這方面，我們首先定義投稿之前三個月內的文章屬于同期工作，作者可能會不了解。另一方面，如果工作只收錄在arxiv上，也不一定需要進行比較，因為它不屬于同行評議的正式出版物。另外，對于那些結果不錯，數據可靠，但方法又不是特別新穎的論文，我們從去年起設置了Findings類別。所以我們在這方面做了很多的工作，SOTA并不是一個特別強調的指標。

但存在的一個問題是，我們設計的審稿規范，不能保證審稿人能夠嚴格按照規范去操作，這方面還需要去持續優化。

AI科技評論：今年字節跳動的一篇ICLR拒稿投了ACL，成了最佳論文，您如何看待這種“轉投中稿”的現象？NLP領域四大頂級會議，學生應該如何選投，能否給出一些建議？

很多人知道NLP領域有四大頂會ACL、EMNLP、NAACL和COLING。ACL是公認綜合質量最高的國際計算機語言學會，語言探索與經驗方法兼容并收。COLING與ACL類似，是歷史悠久的NLP學術會議，但不屬于ACL協會旗下。NAACL偏重數據驅動方法，與EMNLP風格接近，更符合美國學者的口味。

早期整個人工智能，包括自然語言處理都不是很火熱，ACL每年只有幾百篇的投稿量。后來，基于規則的機器學習方法開始出現，自然語言處理領域才開始活躍起來。SIGDAT是ACL協會下設的一個語言學數據工作組，他們建議創建一個自然語言處理經驗方法會議，也就是EMNLP。

EMNLP對經驗方法的定義，包括模型設計和實現，語料庫構建與標注，還有評價方法。所以定量實驗和數據分析，做得多做得好，更容易受到EMNLP認可。我們今年評選的最佳長、短論文都與數據集有關。

雖然會議在定位和設計上各有特色，慢慢還是會出現一些同質化的傾向。因為除了COLING外，EMNLP、ACL和NAACL都是由ACL組織運作的，審稿人、SAC/AC、PC基本來自于同一個群體，各會議在審稿要求和規范方面也會相互參考和借鑒。所以學生在投稿的時候，不見得要緊盯一個會議，在DDL之前所有NLP相關會議都可以去嘗試。對于初次投稿的學生來說，這個過程中收到的反饋和意見更重要，字節跳動“轉投中稿”的事也印證了這個事情。另外，現在NLP的投稿量越來越多，有了idea和好結果再不投，可能就被別人搶先了。

AI科技評論：EMNLP被拒論普遍存在共性問題是什么？您認為真正好的論文應該具備哪些特質，能否給學生一些建議？

整體來看，EMNLP投稿論文的下限相比以前有所提高，因為提交格式不規范被拒的情況少了很多。現在存在比較重要的問題是：過于關注SOTA。很多作者覺得只要我的模型有好的結果，上傳了coding，就可以發表了。但對于一篇真正好的論文來講，模型性能只是一方面。我們更關注的是作者的研究動機，文章的論證邏輯，以及實驗方法的新穎性。

作者要明確地提出科學問題和解決方法，在這之前，他們需要做好充分的文獻調研，我們發現，很多作者提出的實驗方法其實早就被驗證過了，所以研究的創新性、新穎性是很關鍵的。我們還要看作者的邏輯表達，是否能把以往的工作梳理清楚，從分析、研究到驗證的整個過程是否嚴謹，有理論支撐。另外，在實驗環節，我們不僅看實驗結果，更關注設計過程是否合理，實驗結果是否充分可靠。

我經常跟自己組里的學生說，不要覺得科研論文是記敘文，寫在敘事。既然是“論”文，就一定要以說理為主，要以理論和實驗為依據，在有限的篇幅內把研究觀點立起來。實驗只是驗證結論的一個手段，不能只關注SOTA，從發現問題到解決問題的邏輯演繹更為重要。

AI科技評論：EMNLP獲獎論文是如何進行評選的，今年評選過程中是否有一些有趣的故事？

其實獲獎論文評選工作在初級審稿階段就已經開始了。審稿人、領域主席到高級領域主席都會在審稿表單中推薦最佳論文、，這些建議會提交給我們進行二次篩選，差不多篩選出一半后再提交給最佳論文評選委員會，由他們做最終的決定。

我印象比較深的是情感分析領域推薦的一篇論文，獲得了今年的最佳短文。當時200多篇論文中，負責相關領域的SAC只推薦了這一篇，也沒有推薦最佳長文。審稿人、領域主席和高級主席都認為這篇是最佳短文的候選。這項研究提出了一個幽默感知模型CHoRaL，用來檢測Facebook上的消息貼是否幽默。他們收集了 78.5 萬篇與 COVID-19 相關的帖子，通過從帖子中提取語義詞匯和情感特征，分析社交媒體的幽默表達，還創建了帶標簽的大規模數據集。

看了這篇論文后，我們認為在深陷疫情漩渦的背景下，從“幽默”角度切入，提高語言理解能力的研究主題非常新穎，多少也有些苦中作樂的意味。因為今年疫情在全球范圍內仍造成了不小的沖擊，包括今年EMNLP會議采用的也是線上線下結合的方式，很多學者因為疫情無法到現場參會。

AI科技評論：Findings和ARR的實施效果如何？今年在審稿方面還做了哪些方面的改進？

每年EMNLP會議都會總結往年經驗，做一些新的嘗試和改進。比如去年EMNLP提出Findings類別，接收那些不足以被頂會錄用，但實驗方法有創新，實驗結果好的論文。今年是引入ARR滾動審稿機制，讓論文投稿和評審更及時高效。整體來看，Findings共接收了419篇高質量的論文，ARR投稿量截至10月份已經有上千篇，并且在明年的ACL、EMNLP等會議中廣泛使用。

在審稿規范方面，我們今年重新修訂了短論文的評審標準，以前很多作者抱怨短文的拒稿率太高，可能審稿人覺得研究方法不夠新穎，實驗不夠透徹。今年我們要求短文不能采用長文的評選標準，短論文只要問題聚焦，驗證了方法的有效性，即使是階段性的貢獻也是有價值的。

另外其他會議也有相應的改進，比如ACL-IJCNLP 2021開設了審稿人培訓系統；NAACL 2021改善了倫理評審機制，不過這種改進都是漸進式的。

AI科技評論：您認為碩博生要在頂會發表論文，需要掌握哪些能力？

很多學生都希望在科研上做出一些有影響力的工作。做科研的第一步要學會發現問題。其實，博士與碩士在科研能力的培養和要求上有很大的不同，碩士階段可能我們只需要閱讀大量文獻，在前人研究的基礎上去探討一些新問題，但博士生要獨立地擴展一個新的研究領域，要自己去想idea。

其實很多時候，不是研究問題很難找，是我們缺少鑒別問題的能力，我經常告訴學生，讀論文要學會“挑刺”，你不能順著作者的邏輯，要換個角度嘗試去反駁它，就像審稿人一樣，要能夠找出這篇論文的優缺點、有哪些改進的空間，這樣才能在相對成熟的研究中發現新問題。另外，我們很多學生在碩博期間會去工業界實習，除了為將來職業規劃做準備外，從實際的落地場景中也更容易挖掘一些感興趣的問題。

AI科技評論：從進入NLP領域以來，您的研究方向經歷了哪些變化，現在的主要研究方向和成果是什么？

我在讀博的時候恰好趕上了NLP走向數據驅動的機器學習的過程，經歷了從一開始的統計方法，到基于規則的方法，再到現在的深度學習。其實做科研就是這樣，只要技術一直在更新，你就要一直去追熱點方向。當然如果能夠像Bengio, Hinton那樣引領熱點是最偉大的。我現在的研究方向主要與社會媒體有關，包括趨勢分析、情感分析、可理解分析以及內容推薦。

除了社會媒體，我們也在做新聞方面的NLP，一開始做這個方向主要是興趣，我自己就是深度網民，以前經常在BBS、天涯，新浪微博這些社區潛水。當然從科研角度來講，社交媒體上有很好的數據資源，我們利用這些天然的數據訓練語言模型，測試它在不同的領域的魯棒性，在遷移學習方面有更多探索的空間。

另外，深度學習把我們從特征挖掘時代帶到了結構工程時代，這個過程帶來了很多新的問題，比如如何選擇適配特殊任務特殊數據集的結構；可理解分析如何增加模型的可信賴性；如何更好地判斷模型是否過擬合等。所以，可解釋性也是我們目前研究的重點方向。

AI科技評論：您認為NLP發展經歷了哪幾個重要的階段，當下的研究趨勢和面臨的瓶頸是什么？

1950 年艾倫·圖靈在《計算機與智能》論文中提出機器翻譯算法，第一次研究了自然語言的形態學、句法和語義問題。這項成果被看做是自然語言發展的源頭。在這之后，如果回溯整個NLP發展歷程，大概可以分為三階段；第一個階段是上個世紀，NLP在機器翻譯領域經歷了漫長的發展歷程。第二階段是本世紀初，基于規則和數據驅動的機器學習技術開始興起，NLP進入蓬勃發展期；第三階段就是現在以深度學習為主的NLP時代。

細分下來，目前整個NLP發展的熱點趨勢，可以總結為幾個關鍵詞：預訓練，多模態，低資源、低功耗、可解釋，科技向善。大火的GPT-3就是預訓練模型，這項研究獲得了NeurIPS 2020最佳論文，EMNLP-IJCNLP 2019 的最佳論文也與預訓練有關。之所以成為學術熱點，主要就是它在ImageNet等大規模數據集上達到了很高的性能水平。然后是可解釋性，不僅是NLP領域，整個以深度學習為核心的人工智能都面臨模型可解釋的問題，如今AI開始大規模走向落地，有關可解釋的研究也越來越緊迫。這些熱點研究方向百花齊放，但現階段都都存在一些難以逾越的瓶頸，比如預訓練在工業界的落地開銷太大，如何在醫療、金融等領域發揮實際價值，能否實現小樣本學習等等。

AI科技評論：EMNLP從最早的興趣小組成為了僅次于ACL的第二大NLP會議，投稿量也在逐年上漲，華人學者連續多年占據投稿量榜首，您認為EMNLP的崛起對NLP發展有哪些作用？

不止是EMNLP，我覺得各類NLP頂會對自然語言處理的發展起著重要的引領性作用。從EMNLP來說，我們會試圖挖掘有價值的研究，引導學者形成正確的價值觀，推動NLP的全面發展。比如通過開設自然語言處理效率、可解釋性等小眾領域，促進研究的多樣性；通過制定各種規范和指南，影響審稿人和作者的價值判斷；通過最佳論文評選，為研究者樹立標桿。

另外，今年在會議安排上，我們邀請了MIT腦與認知科學系的Evelina Fedorenko教授，就大腦的語言系統做相關主題報告，他們的工作有助于推動NLP與多學科的交叉融合。同時我們還邀請澳大利亞查爾斯達爾文大學的Steven Bird教授，分享用NLP幫助新西蘭土著居民的科研項目，傳遞科技向善的理念。所以從整個人工智能圈來講，希望引導學者利用NLP技術去做一些真正提升社會價值的工作。

下一屆EMNLP程序主席

AI科技評論了解到，EMNLP組委會已公布下一屆會議的程序主席，其中，西湖大學張岳教授位列其中，這是自EMNLP成立以來第四位內地學者出現在大會程序委員會的行列。

對話程序主席黃萱菁：EMNLP從投稿到接收，我們是如何工作的

作為國內早期從事自然語言處理研究的學者之一，張岳老師研究方向側重自然語言的解析、生成和翻譯、文本挖掘、機器學習，已發表相關國際期刊論文30余篇，CCF列表 A、B 類國際會議論文百余篇，獲得過CCF2018中文計算與自然語言處理青年新銳獎、SemEval2020（honorable mention）COLING2018和IALP2017最佳論文獎等獎項。

盤點EMNLP歷年的組委會成員，除了張岳和黃萱菁教授外，還有字節跳動李航博士、北京大學萬小軍等國內學者，以及新加坡管理大學Jing Jiang、德克薩斯大學Vincent Ng等多名華人學者出任EMNLP程序主席。

張岳老師入選EMNLP2022程序主席，意味著他本人及其團隊的學術成就和地位得到了國際同行的認可，而越來越多的華人面孔出現國際會議的組委會行列，標志著我國計算語言學和自然語言處理研究領域在國際學術舞臺擁有更多的話語權。

對話程序主席黃萱菁：EMNLP從投稿到接收，我們是如何工作的

雷峰網(公眾號：雷峰網)雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章