成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能開發(fā)者 正文
    發(fā)私信給汪思穎
    發(fā)送

    0

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    本文作者: 汪思穎 2018-07-28 23:35
    導(dǎo)語:2018 機(jī)器閱讀理解技術(shù)競賽提供了一個(gè)基于真實(shí)場景的大規(guī)模中文閱讀理解百度數(shù)據(jù)集,本文是冠軍團(tuán)隊(duì)對比賽方案解讀。

    雷鋒網(wǎng) AI 科技評論按:7 月 28 日,由中國中文信息學(xué)會和中國計(jì)算機(jī)學(xué)會聯(lián)合舉辦的第三屆語言與智能高峰論壇于北京語言大學(xué)舉辦,Naturali 奇點(diǎn)機(jī)智團(tuán)隊(duì)作為 2018 機(jī)器閱讀理解技術(shù)競賽冠軍團(tuán)隊(duì),受邀參加本次活動(dòng)的「機(jī)器閱讀理解評測論壇及頒獎(jiǎng)儀式」,Naturali 聯(lián)合創(chuàng)始人兼 CTO、國際計(jì)算語言學(xué)協(xié)會會士(ACL Fellow)林德康作為代表進(jìn)行了 2018 閱讀理解技術(shù)競賽系統(tǒng)報(bào)告。

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    機(jī)器閱讀理解任務(wù)一直是自然語言處理領(lǐng)域的重要問題。2018 機(jī)器閱讀理解技術(shù)競賽提供了一個(gè)基于真實(shí)場景的大規(guī)模中文閱讀理解百度數(shù)據(jù)集,共包含來自百度搜索的 30 萬個(gè)來自真實(shí)用戶的問題,對中文閱讀理解系統(tǒng)提出了很大的挑戰(zhàn)。Naturali 的系統(tǒng)在正式測試集上 ROUGE-L 和 BLEU-4 分別達(dá)到了 63.38 和 59.23,在 800 多支報(bào)名隊(duì)伍、105 支提交最終結(jié)果的隊(duì)伍中取得了第一名。

    以下為 Naturali 奇點(diǎn)機(jī)智聯(lián)合創(chuàng)始人兼 CTO 林德康在現(xiàn)場分享的競賽報(bào)告:

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    一、DuReader 閱讀理解數(shù)據(jù)集的特點(diǎn)

    現(xiàn)在有很多閱讀理解問答數(shù)據(jù)集,百度數(shù)據(jù)集算是中文閱讀理解數(shù)據(jù)集里最好的。百度數(shù)據(jù)集相比 Stanford 經(jīng)典數(shù)據(jù)集 SQuAD 更真實(shí)、更具挑戰(zhàn)性。SQuAD 是從維基百科的信息來源集成問題,答案必定出現(xiàn)在文本里面,句法比較標(biāo)準(zhǔn)。而此次比賽的百度數(shù)據(jù)集都是用戶的真實(shí)提問,不僅包括事實(shí)性的問題,還包括意見性的問題,部分問題在百度搜索里沒有標(biāo)準(zhǔn)答案,并且問題的表達(dá)方式不一定很直接。

    比如說意見性問題「iPhone X 好不好用」,或現(xiàn)象描述「響一聲就說正在通話中」,這類問題回答起來難度更高。

    二、競賽題目實(shí)例

    問題:昆特牌什么時(shí)候公測

    人工標(biāo)注答案:[‘時(shí)間為 6 月 6 日,暫定為期兩周,即 6 月 6 日-6 月 19 日。']

    Naturali 答案: [‘巫師之昆特牌國服山丘試煉開啟時(shí)間為 6 月 6 日,暫定為期兩周,即 6 月 6 日-6 月 19 日。’]

    參考文檔

    ['文章 閱讀','巫師之昆特牌山丘試煉馬上開啟了,帥編來告訴大家開啟時(shí)間。','巫師之昆特牌國服山丘試煉開啟時(shí)間為 6 月 6 日,暫定為期兩周,即 6 月 6 日-6 月 19 日。','參與過“青草試煉”的玩家將直接獲得本次測試的資格,無需激活碼。','國服公測時(shí)間暫未公布。','聲明:本文由入駐搜狐公眾平臺的作者撰寫,除搜狐官方賬號外,觀點(diǎn)僅代表作者本人,不代表搜狐立場。','一款專為游戲動(dòng)漫愛好者打造的 app 全面的資訊福利,熱門資訊圖鑒攻略應(yīng)有盡有。國內(nèi)外熱門手游推薦,精彩不容錯(cuò)過。','itmo 愛萌游戲-二次元游戲第一門戶 itmo 愛萌游戲是國內(nèi)第一二次元游戲門戶網(wǎng)站,致力于打造全新型的手機(jī)游戲網(wǎng)站。']

    ['南方公園游戲在 U2 上放出了新的宣傳片昆特牌公測日期發(fā)布南方公園游戲這都從去年 4 月延到今年 10 月不過動(dòng)畫 21 季今年 9 月開始播剛好可以銜接到游戲發(fā)售日期','反正昆特牌打了一下午電腦一盤沒贏我就放棄了','我巫師 3 二周目開始玩昆特牌,畢竟一周目沒錢,二周目也不繼承。現(xiàn)在走到哪打到哪。','下周就公測?好突然,這么快','昆特盤看測試錄像,氪金也是厲害啊。。。這南方公園竟然跳票到這個(gè)時(shí)候。。','昆特牌國際服已經(jīng)激活就是看不懂挺期待南方公園的','期待 spOktoberfest! 另外希望昆特正式服早日上線','南方公園一聽就是垃圾游戲,大家千萬別買','應(yīng)用吧活動(dòng),去領(lǐng)取','活動(dòng)截止:2100-01-01','要不是川普贏了,也不至于這么跳票','昆特牌還沒公測啊,我都以為大家已經(jīng)玩了好久了','打牌才是正事 打牌打到十一月玩高清二戰(zhàn) 美滋滋’]

    解析說明:參考文檔是從搜索引擎得到的排名靠前結(jié)果的網(wǎng)頁全文,一個(gè)問題會對應(yīng)多篇長文檔;標(biāo)注答案是人工根據(jù)文檔總結(jié)撰寫而成,一個(gè)問題可能對應(yīng)多個(gè)答案,特別是對意見性的問題來說,有多個(gè)答案是很常見的。從以上案例可見,Naturali 閱讀理解系統(tǒng)給出的答案比人工答案甚至還要全面。

    三、數(shù)據(jù)預(yù)處理

    百度提供五個(gè)篇文章作為參考文檔。由于文章沒有長度限制,我們根據(jù)關(guān)鍵詞密度,句子位置等信息將超過 500 詞的文章壓縮到 500 詞以內(nèi)。

    以下是我們數(shù)據(jù)預(yù)處理的具體方法:

    1. 如果標(biāo)題和各段內(nèi)容中間插入特殊分割符號連接在一起,沒有超過預(yù)設(shè)最大長度,則將得到結(jié)果作為預(yù)處理的結(jié)果;

    2. 否則,我們計(jì)算各段落和問題的 BLEU-4 分?jǐn)?shù),以衡量段落和問題的相關(guān)性;

    3. 在分?jǐn)?shù)排名前 k 的段落中,選擇最早出現(xiàn)的段落;

    4. 選取標(biāo)題,這個(gè)段落以及下一個(gè)段落;

    5. 對于第 3 到第 10 個(gè)段落,選取每個(gè)段落的第一句話;

    6. 將所有選取的內(nèi)容以特殊分隔符連接在一起,截取最前面不超過預(yù)設(shè)最大長度的內(nèi)容,將得到的結(jié)果作為預(yù)處理的結(jié)果。

    四、模型整體結(jié)構(gòu)

    我們使用的模型整體結(jié)構(gòu),是經(jīng)典的端對端閱讀理解模型結(jié)構(gòu),分為四層:

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    第一層:特征表示層(Representation)

    第二層:編碼層(Encoding)

    第三層:匹配層(Matching)

    第四層:答案片段抽取層(Answer Span Extraction)

    下面我們對每一層進(jìn)行簡單介紹。

    第一層:特征表示層

    首先,給定一個(gè)問題的詞序列和篇章的詞序列,我們要對它進(jìn)行特征抽取,將它變成一個(gè)特征向量序列。

    我們是在搜狗互聯(lián)網(wǎng)語料庫上進(jìn)行的預(yù)訓(xùn)練。這個(gè)數(shù)據(jù)集比百度數(shù)據(jù)集還要大好幾個(gè)量級,所有中文網(wǎng)頁都在里,每一詞用什么向量表達(dá)就是在這里面訓(xùn)練的。

    第二層:編碼層

    得到問題和篇章的向量特征表示序列后,我們分別進(jìn)行編碼。

    第三層:匹配層

    匹配層是模型比較核心的部分,我們利用注意力機(jī)制融合問題和篇章信息。

    經(jīng)過了幾種模型的測試,最后我們的系統(tǒng)里用到了 Match-LSTM、BiDAF、DCA 這三種集成模型,相比其他模型,這幾種模型效果接近,訓(xùn)練速度較快。在單一模型中我們運(yùn)用 BiDAF,在集成模型中則會運(yùn)用到不同的匹配層得到的結(jié)果進(jìn)行集成。

    第四層:答案片段抽取層

    最終,我們利用指針網(wǎng)絡(luò)進(jìn)行答案抽取。

    根據(jù)百度數(shù)據(jù)集特點(diǎn),回答里面可能會包含多個(gè)答案,所以我們采用的是第二種利用多個(gè)參考答案的公式進(jìn)行計(jì)算,即在多個(gè)答案上損失的平均數(shù)作為損失函數(shù)。

    ● 常用損失函數(shù)

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    ● 利用多個(gè)參考答案

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    五、最小風(fēng)險(xiǎn)訓(xùn)練

    通常的 RC 系統(tǒng)是以提高標(biāo)準(zhǔn)答案概率作為訓(xùn)練的目標(biāo),但實(shí)際評測的標(biāo)準(zhǔn)是 ROUGE。最小風(fēng)險(xiǎn)訓(xùn)練是拿評測的標(biāo)準(zhǔn)作為訓(xùn)練的目標(biāo),需要對每個(gè)片段都計(jì)算損失函數(shù),所以優(yōu)化的時(shí)間比較長。我們的系統(tǒng)首先用最大似然估計(jì)訓(xùn)練得到初始模型,然后直接優(yōu)化 ROUGE 函數(shù),讓我們的 ROUGE 值達(dá)到最高。這里 delta(y_i, y_i*) 是候選答案 y_i 與標(biāo)準(zhǔn)答案 y_i* 在 ROUGE 函數(shù)上的差。

    ● 最小風(fēng)險(xiǎn)訓(xùn)練

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    ● 以最大似然估計(jì)訓(xùn)練得到的模型初始化繼續(xù)訓(xùn)練

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    六、單一模型實(shí)驗(yàn)結(jié)果

    我們的 ROUGE 分?jǐn)?shù)最終能夠遠(yuǎn)遠(yuǎn)超出基線系統(tǒng)分?jǐn)?shù),是通過篇章預(yù)處理、預(yù)訓(xùn)練詞向量、其他特征、多個(gè)答案、聯(lián)合訓(xùn)練、最小風(fēng)險(xiǎn)訓(xùn)練等方法綜合累計(jì)得來的。

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    七、集成模型

    我們提交的數(shù)據(jù)是通過集成模型計(jì)算出來的,最終根據(jù)不同種模型(BiDAF, MatchLSTM, DCA)和不同參數(shù)(Dropout:0.1, 0.15, 0.2,聯(lián)合學(xué)習(xí)比率:4.0, 5.0)做成了一個(gè)集成模型,比單一模型的 ROUGE 分?jǐn)?shù)又高出了 1.5 個(gè)點(diǎn)。

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    八、總結(jié)及展望

    我們本次競賽用的是神經(jīng)網(wǎng)絡(luò)端到端的系統(tǒng),而我曾經(jīng)在谷歌做搜索問答用的是模塊化的系統(tǒng)。模塊化系統(tǒng)會把問題分成幾部分,首先識別答案類型,再根據(jù)類型和問題、文本的匹配度去計(jì)算分?jǐn)?shù)。而神經(jīng)網(wǎng)絡(luò)系統(tǒng)把所有的步驟放到一個(gè)網(wǎng)絡(luò)里面,雖然沒有專門為不同的答案類型建模,但是訓(xùn)練完成后仍然能夠覆蓋到不同問題類型,比如問「什么時(shí)候......」,找的答案里就有日期。

    相比模塊化系統(tǒng),神經(jīng)網(wǎng)絡(luò)端到端的系統(tǒng)代碼簡單很多,并且每次改動(dòng)、優(yōu)化都是全局的優(yōu)化。然而模塊化系統(tǒng)的優(yōu)化,是優(yōu)化某一個(gè)模塊,模塊之間已經(jīng)適應(yīng)了各自的缺陷,其中一個(gè)模塊變好,其他模塊不一定隨之改善,使整個(gè)系統(tǒng)的優(yōu)化會變得比較困難。

    目前有很多問答系統(tǒng)已經(jīng)上線了,但是背后的實(shí)現(xiàn)還是模塊化的機(jī)制。很有可能神經(jīng)網(wǎng)絡(luò)系統(tǒng)現(xiàn)在的表現(xiàn)暫時(shí)還不及模塊化系統(tǒng),但到現(xiàn)階段它的準(zhǔn)確度已經(jīng)可以有一些應(yīng)用。比如我們做語音助手的時(shí)候,經(jīng)常將搜索作為一個(gè)「兜底」的功能。比如在智能客服應(yīng)用中,拿客服文檔做關(guān)鍵詞匹配,但用自動(dòng)閱讀理解就可以把閱讀理解系統(tǒng)當(dāng)做一個(gè)「兜底」,找到文檔以后便可以把更精簡、準(zhǔn)確的答案找出來。

    最后,如果有對我們的團(tuán)隊(duì)感興趣的同學(xué),歡迎投簡歷到 jobs@naturali.io,期待你與我們一起,在 AI 語音交互這條路上共同前行。

    謝謝大家。

    附 Naturali 奇點(diǎn)機(jī)智簡介:

    Naturali 創(chuàng)立于 2014 年 11 月,目前已經(jīng)將業(yè)務(wù)聚焦在兩個(gè)方面:一個(gè)是 NI 開放平臺——「零編碼、五分鐘 ,創(chuàng)造屬于你的語音技能」,為各類硬件、APP 賦予 AI 語音交互能力。另一個(gè)是一款帶有學(xué)習(xí)功能的第三方語音助手 APP「布點(diǎn)語音」,已經(jīng)在各大安卓商店上線,目前已經(jīng)可以覆蓋 300+APP,支持 12000+ 語音技能。

    雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    2018 機(jī)器閱讀理解技術(shù)競賽頒獎(jiǎng)儀式:競賽冠軍 Naturali 分享問答系統(tǒng)新思路

    分享:
    相關(guān)文章

    編輯

    關(guān)注AI學(xué)術(shù),例如論文
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說