成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    本文作者: 我在思考中 2021-08-11 09:53
    導語:以學術界為主力軍的中國AI研究力量正在悄然變化,工業界的作用愈發凸顯,與學術界一起形成雙輪驅動之勢。
    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    作者 | 青暮

    以學術界為主力軍的中國AI研究力量正在悄然變化,工業界的作用愈發凸顯,與學術界一起形成雙輪驅動之勢。

    倫敦帝國理工學院 Marek Rei 教授對ML&NLP相關會議論文的統計顯示,自2012年至2020年期間,美國以近4000篇論文的數量遙遙領先,中國、英國、德國和加拿大分別名列第二至五位。

    美國科技公司在各大人工智能頂會上格外強勢,微軟和谷歌排名前二,IBM和Facebook也名列前十;與此形成鮮明反差的是,中國AI研究界則由學術機構當家,僅清華和北大躋身前十,分別排名第八和第九位。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    但是在AI技術應用火熱的推動下,中國科技企業也逐漸從“輔助角色”進化為中堅力量。在剛剛結束的NLP頂會ACL 2021上,中國的論文投稿數量已經大幅超越美國,共有 1239 篇論文投稿來自中國大陸,其中 251 篇被接收,接收率 20.3%,工業界在其中出力甚多。

    更值得欣喜的是,字節跳動AI Lab的詞表學習方案VOLT贏得“最佳論文”獎項。這是ACL舉辦59年以來,中國團隊第二次獲得會議最高榮譽,上一次是由中科院計算所研究員馮洋獲得ACL 2019年最佳長論文獎。此外,香港中文大學與騰訊AI Lab的合作論文成功入選“杰出論文”。

    本次我們邀請到了字節跳動AI Lab獲獎論文作者,向讀者介紹他們在ACL 2021上的工作。


    1

    NLP的華人力量

    字節跳動獲獎論文“Vocabulary Learning via Optimal Transport for Machine Translation”提出了VOLT方法,能以非常低的代價學習詞表,在機器翻譯上取得了更好的性能。而詞表幾乎可以用于所有NLP任務,團隊也在積極推動VOLT在其他NLP任務上的應用。

    另外這項工作是從經濟學和數學中獲取靈感,從而給出了一個可行的詞表學習方案。該論文第一作者許晶晶說:“我們給出了基于最大邊際效應的一種可能的解釋,和把詞表學習建模成一個最優運輸問題的全新想法。”

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    論文地址:https://arxiv.org/abs/2012.15671

    項目地址:https://github.com/Jingjing-NLP/VOLT

    許晶晶于2015年進入北京大學電子工程與計算機科學學院,攻讀博士學位,在計算語言學教育部重點實驗室跟隨孫栩教授做研究。

    2021年2月,也就是五年后,AAAI首次評選“學術新星”(New Faculty Highlight),許晶晶成功入選,是入選者中唯一的中國機構學者。

    回首五年前,許晶晶認為自己非常幸運,剛進入AI領域的時候,恰好就是自然語言處理從傳統的淺層模型走向深度模型的過渡點?!皩τ贜LP領域而言,深度學習在當時還是一種比較新的方法,入學的時候比較幸運趕上了深度學習在自然語言處理應用的浪潮”。

    今年中國團隊再次獲得ACL最高榮譽,但光芒的背后,是一步一步的扎實積累。“最近幾年華人在NLP領域的進步是非常大的。在15年的時候,對于一家中國研究機構來說,可能一年中一篇ACL,就是非常了不起的事情。隨著時代的進步,華人的名字開始越來越多地出現在會議上,這是一個可喜的進步。相信在不久的將來,華人也可以做出很多可以引領整個時代潮流的工作?!痹S晶晶說道。


    2

    來自經濟學和數學的啟發

    許晶晶對自然語言處理(NLP)的基礎研究比較感興趣,而詞表又是自然語言處理的基礎組件。

    團隊成員們非常尊重和支持她的個人研究興趣,當她最開始提出想要研究詞表的時候,很快就獲得了團隊成員們的支持。

    詞表,也就是把句子拆分表示的參考表,有多種形式,比如詞級別、字符級別、子詞級別等等,如下圖所示。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    在機器翻譯架構中,這些句子在輸入后會依據詞表拆分成token(比如”Oregon“被拆分成“O”、“re”、“gon”三個token),然后將每個token分別表示為向量,再進行神經網絡的編碼、解碼,然后先輸出token級別的表示,再依據詞表組合成完整的翻譯句子輸出。

    在三種級別的詞表中,詞級別簡單按照詞匯水平對句子進行分割,對應的詞表就是語料中所有的單詞;字符級別把所有單詞都拆分成字母。子詞級別介于兩者之間,比如在上圖這句話中,”Oregon“被拆分成“O”、“re”、“gon”三個token,“enlisting”被拆分成“en”、“listing”。

    目前為止,子詞級別的詞表使用比較多,并且已經在多個任務上驗證了效果。因此,在目前的認知條件下,可以暫時認定子詞為較好的選擇。

    在這項研究中,實驗室團隊就是希望找到最好的子詞詞表,以提高機器翻譯的性能和效率。

    如何理解子詞表示的好處呢?比如在“enlisting”和“enlighten”這兩個單詞中,我們可以把它們拆分成“en”、“listing”,以及“en“、”lighten”,然后我們在向量空間中需要構建“en”、“listing”、“lighten”這三個詞向量。在足夠多的詞匯量下,子詞級別需要的詞表比詞級別的要小。

    從一般的意義上講,子詞表示是一種信息壓縮(相對于字符表示)。就好像為了理解大量的蛋白質數據,我們用氨基酸作為基本單元來進行分類,而不是直接用原子作為基本單元。但也因此,子詞級別的詞表相比字符級別會更大。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    那么詞表是不是越大越好呢?實際上在BPE算法中隨著詞表增大,新增的子詞匹配的多是稀疏單詞,也就是信息熵降低,這樣反倒不利于模型學習。

    具體而言,對于每一種語言來說,常用的單詞都是少數的。或者準確點說,每一種語言的單詞使用頻率是呈現長尾分布的。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    這意味著,整個機器翻譯系統中,對這些低頻詞匯進行子詞分解,在后續的編解碼中,并不會對信息熵的變化帶來太大收益。

    因此除了信息熵,詞表大小也是衡量詞表的重要因素。

    團隊由此聯想到了經濟學中的經典現象——邊際收益

    通俗來說,邊際收益就是指“剛開始的幾口蛋糕真香”以及“最后一口蛋糕好膩”。我們可以把“吃一口蛋糕”定義為投入,“真香感受”定義為產出,邊際收益就是投入產出比?!皠傞_始的幾口蛋糕真香”的投入產出比高,“最后一口蛋糕好膩”的投入產出比低。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    在子詞詞表構建中,隨著詞表大小的增加,一般來說,token的信息熵收益會在某個時刻之后達到巔峰并且下降。

    而這個性價比臨界點,正是團隊要尋找的目標。

    因此,團隊為了建模這種平衡,引入了邊際收益的概念。團隊將信息熵看成是邊際收益中的利益,詞表大小看成是邊際收益中的代價。隨著詞表的增加,不同大小的詞表的信息熵收益是不同的。

    團隊使用邊際收益的概念定義了衡量詞表質量的指標MUV,并且觀測到了MUV指標和下游任務的相關性。

    MUV可以理解成為信息熵對詞表大小的負一階導數,也即是我們在逐個增加token來構建詞表的時候,每增加一定量的token導致的信息熵增益。我們的目標,就是要在巨大的詞表空間中尋找MUV的最高值。

    這樣就可以把詞表學習轉化為搜索具有最大MUV分數的詞表問題。為了解決該問題,作者提出了一種基于最優運輸的方案。

    為了便于大家更方便地理解最優運輸,這里對最優運輸先做一個簡單的回顧。

    大約250年前,法國數學家蒙日在其作品中對這類問題進行了嚴格分析,下面是一個比較直觀的例子。

    假設在戰爭中,我方有一些前線(藍色星星)發出了需要增兵的信號,而我們的士兵分散在不同的后方根據地(紅色旗幟)。不同的前線需要的士兵個數不同,后方根據地的士兵個數也不同,前線距離后方根據地的距離也不同。問如何設計轉移方案,使得總轉移代價最低?這就是最優運輸想要回答的問題。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    那么,如果要用最優傳輸來解決詞表學習問題,首先要將問題進行重建。作者們將句子拆分成字符后的表示看成是后方士兵,將候選詞表看成是前線。為了避免不合法的搬運,作者們將不合法的搬運設為無窮大(比如字e搬運給詞cat是不合法的)。每種搬運方式對應一種詞表,那么我們只需要把搬運代價定義成MUV相關分數,就可以實現搜索的目的。

    那么如何將詞表學習的問題轉化成為最優運輸的代價呢?作者對問題進行了簡化。簡化過程分為兩步,一個是對搜索空間進行壓縮,一個是對目標進行近似。對技術細節感興趣的讀者,可以看看VOLT方法的偽代碼:

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    以下是VOLT生成的詞表在雙語翻譯的結果,可以看出新方法學到的詞表比經常使用的詞表大小小很多,效果也很有競爭力。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    以下是在多語翻譯的結果,總體來看,在三分之二的數據集上效果也是較好的。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    VOLT不需要結合任務的下游任務訓練,因此非常簡單高效。但許晶晶轉而說道,“這其實是一把雙刃劍,如果可以結合下游任務的話,有機會針對特定情況或許可以獲得更好的性能和效率?!?/span>


    3

    不止是VOLT

    相比于對模型的關注,詞表在NLP社區中相關的研究可能少一些,而詞表又是非常重要的一環。如何去理解詞表其實是一個很有意思的問題。

    對于這項工作的泛化性,許晶晶也有所期待,“或許未來能在其他NLP任務上看到VOLT的身影?!?/span>

    同時,這項技術也被團隊用到了競賽中。在今年的WMT2021中,字節跳動AI Lab在WMT機器翻譯比賽中取得了好成績。這次比賽中,除了VOLT,團隊們還使用了非自回歸的方法GLAT。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    論文鏈接:https://arxiv.org/abs/2008.07905

    在WMT2021國際機器翻譯大賽上,字節跳動火山翻譯團隊以“并行翻譯”系統參賽,獲得德語到英語方向機器翻譯比賽自動評估第一名。“并行翻譯”在國際大賽首次亮相,就成功擊敗了從左向右逐詞翻譯的“自回歸模型”技術,打破后者在機器翻譯領域的絕對統治地位。

    許晶晶的團隊同事周浩說道,“這充分說明并行(非自回歸)生成模型未必比自回歸模型差”。

    WMT2021是由國際計算語言學協會ACL舉辦的世界頂級機器翻譯比賽,德英語向是該賽事競爭最激烈的大語種項目之一。

    GLAT被還上線到了字節跳動的火山翻譯中,為公司產品和火山引擎的企業級客戶提供翻譯服務,” 在訓練數據量小的場景下,‘并行翻譯’的質量相比傳統技術處于劣勢。但是當訓練數據規模變大后,‘并行翻譯’會逐漸縮小差距,甚至反超傳統技術?!爸芎蒲a充道。

    火山翻譯是字節跳動旗下火山引擎的AI中臺能力之一,提供全球先進的翻譯技術與服務,打造各大場景智能翻譯解決方案。

    火山翻譯打通了多個翻譯場景,包括文本、語音、圖片、音頻、視頻,以及虛擬世界和現實世界。其中,虛擬世界即AR,現實世界即同傳。此外還支持多語種,包括56門語言、3080個語向的翻譯。

    在2021年上半年,火山翻譯研發了視頻翻譯和AR智能翻譯眼鏡,火山同傳也支持了多場大會與直播,很好促進了多語言內容互通。

    視頻翻譯:

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?
    ?
    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?
    AR智能翻譯眼鏡:
    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?
    ?火山同傳(圖中為2021年智源大會Yoshua Bengio在線演講片段):

    ?

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在??

    在這些產品背后,字節跳動AI Lab重點研發了多語言翻譯和語音翻譯,有如下幾個亮點。

    比如開源了 lightseq2.0,這是業界最快的推理和訓練引擎,可以把機器翻譯的訓練速度提升 3 倍,把推理速度提升 10 倍。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    以及研發了大規模多語言預訓練 mRASP2 ,可以支持 150 個語種之間的互譯,通過大規模預訓練翻譯效果非常好。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    還有研發了端到端語音翻譯,并且開源了 NeurST,引起了業內較大的關注。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    “既重視基礎研究,又能高效轉化技術。”這也是許晶晶當初選擇字節跳動AI Lab的原因,“組里的同事們都很年輕,有活力、有想法,同時氛圍又很自由,大家都會積極地去推動整個工作組的研究,并在自己的領域中發光發熱?!?/span>

    許晶晶的主要研究方向是綠色深度學習,VOLT的能力正好定位于這個價值觀。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    VOLT:綠色環保的詞表學習方案

    以主流詞表BPE為例。為了搜索最優詞表,業內普遍會通過大量自然語言處理下游任務的訓練以尋找最優大小。相比之下,使用VOLT方案可以節省92%的算力,這同時意味著所需電能的大量減少。

    巧合的是,伏特(volt)是電學的一個基本單位??梢哉f,VOLT是一項非常環保的綠色解決方案。

    機器翻譯是NLP應用的主要部分,而NLP的市場價值仍然無可限量。John Snow實驗室與Gradient Flow合作在2020年發布了一份全球調查報告。這項全球調查詢問了來自50多個國家的近600名受訪者,全面了解了2020年NLP的采用和實施狀況。

    盡管今年IT支出不景氣,但有趣的是,NLP預算全面增加,報告的NLP技術預算比去年增加了10-30%??紤]到該調查是在全球COVID-19大流行的高峰期進行的,而當時全球的IT支出都在下降,這一點尤其重要。


    4

    寫在最后

    ”獲得最佳論文對于我來說是很高的起點。但人終究是要不斷追求進步的,對于下一步該往何處走,做出更好的研究貢獻,也會感受到壓力?!?/span>

    展望未來,許晶晶抱有很大的期待,“事物是動態發展的,方向會不斷調整,但我相信都會往好的方向發展。對于我個人,也期望在這個自由的環境中,繼續做出對公司、對社區、對社會有幫助的事情。字節跳動AI Lab還很年輕,歡迎大家過來開拓自己的事業。”

    參考資料:
    https://jingjingxu.com/
    https://www.zhihu.com/question/470224094?s_r=1&utm_medium=social&utm_source=wechat_session&s_s_i=mXDE8b41WRNbota3j%2FQ7pXommk63fbpGpcgNhU7lUD4%3D
    http://m.qcxyk.com/category/yanxishe/lp59xGal8Tdx3pwq.html
    https://mp.weixin.qq.com/s/tiMqwcVKMaFdNfXez7PZJg

    雷鋒網雷鋒網雷鋒網

    雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。

    中國力量在人工智能頂會崛起,這枚NLP“金牌”奧妙何在?

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說