0
| 本文作者: 楊文 | 2018-03-20 23:37 |
雷鋒網(wǎng)AI研習(xí)社按:目前市面上有很多智能語(yǔ)音問(wèn)答產(chǎn)品,其中絕大多數(shù)給人的感覺(jué)就像是個(gè)玩具,甚至有些「弱智」。為了解決 AI 在高級(jí)問(wèn)答上的難題,近日,國(guó)外研究團(tuán)隊(duì) Peter Clark 等人發(fā)表了一篇論文題目為:Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge(覺(jué)得你已經(jīng)解決了問(wèn)答難題?來(lái)嘗試 AI2 推理挑戰(zhàn)賽吧(ARC)!這篇 paper 中提出的數(shù)據(jù)集也是小學(xué)自然科學(xué)領(lǐng)域目前最大的公開(kāi)數(shù)據(jù)集。(文末有下載地址)
ARC 數(shù)據(jù)集包含 7,787 個(gè)小學(xué)級(jí)別,多項(xiàng)選擇的科學(xué)問(wèn)題,旨在鼓勵(lì)高級(jí)問(wèn)題回答的研究。數(shù)據(jù)集被分成挑戰(zhàn)集和簡(jiǎn)易集,前者只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問(wèn)題。問(wèn)題分為以下幾個(gè)部分:
挑戰(zhàn)訓(xùn)練集:1,119
挑戰(zhàn)開(kāi)發(fā)集:299
挑戰(zhàn)測(cè)試集:1,172
簡(jiǎn)易訓(xùn)練集:2,251
簡(jiǎn)易開(kāi)發(fā)集:570
簡(jiǎn)易測(cè)試集:2,376
論文中提出了一個(gè)新的問(wèn)題集、文本語(yǔ)料庫(kù)和 baseline,這些共同構(gòu)成了 AI2 推理挑戰(zhàn)賽(ARC),以鼓勵(lì)人工智能研究在高級(jí)問(wèn)題回答中的應(yīng)用。它需要比之前的挑戰(zhàn)(如 SQUAD 或 SNLI)擁有更強(qiáng)大的知識(shí)和推理能力。ARC 問(wèn)題集分成挑戰(zhàn)集和簡(jiǎn)易集,挑戰(zhàn)集只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問(wèn)題。該數(shù)據(jù)集僅包含問(wèn)題(用于人類測(cè)試),也是該領(lǐng)域目前最大的公開(kāi)數(shù)據(jù)集(共 7,787 個(gè)問(wèn)題)。我們?cè)谔魬?zhàn)集上測(cè)試了幾條基線,其中包括在 SQUAD 和 SNLI 任務(wù)中領(lǐng)先的神經(jīng)網(wǎng)絡(luò)模型,但發(fā)現(xiàn)沒(méi)有一個(gè)能夠顯著優(yōu)于隨機(jī)基線,這也反映了該項(xiàng)任務(wù)的難度。我們還發(fā)布了 ARC 語(yǔ)料庫(kù),這是一個(gè)與任務(wù)相關(guān)的大小為 14M 的科學(xué)語(yǔ)句語(yǔ)料庫(kù),并且實(shí)現(xiàn)了三種基線神經(jīng)網(wǎng)絡(luò)模型的測(cè)試。你的模型能否在上面更好地運(yùn)行?
以下是 ARC 問(wèn)題集在測(cè)試分區(qū)上的分?jǐn)?shù)(單位:%正確率)。
評(píng)分注釋:如果模型能推測(cè)出給定問(wèn)題的正確答案k線圖,得分為1 / k分。

雷鋒網(wǎng)提示,更多比賽內(nèi)容點(diǎn)擊:http://data.allenai.org/arc/
數(shù)據(jù)集下載地址:https://s3-us-west-2.amazonaws.com/ai2-website/data/ARC-V1-Feb2018.zip
論文地址:https://arxiv.org/pdf/1803.05457.pdf
via AI2 Home
雷鋒網(wǎng)編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。