加速AI 2.0，ARC推理挑戰(zhàn)賽等你來(lái)戰(zhàn)！

本文作者：楊文

2018-03-20 23:37

導(dǎo)語(yǔ)：AI2 Reasoning Challenge

雷鋒網(wǎng)AI研習(xí)社按：目前市面上有很多智能語(yǔ)音問(wèn)答產(chǎn)品，其中絕大多數(shù)給人的感覺(jué)就像是個(gè)玩具，甚至有些「弱智」。為了解決 AI 在高級(jí)問(wèn)答上的難題，近日，國(guó)外研究團(tuán)隊(duì) Peter Clark 等人發(fā)表了一篇論文題目為：Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge（覺(jué)得你已經(jīng)解決了問(wèn)答難題？來(lái)嘗試 AI2 推理挑戰(zhàn)賽吧（ARC）！這篇 paper 中提出的數(shù)據(jù)集也是小學(xué)自然科學(xué)領(lǐng)域目前最大的公開(kāi)數(shù)據(jù)集。（文末有下載地址）

ARC 數(shù)據(jù)集包含 7,787 個(gè)小學(xué)級(jí)別，多項(xiàng)選擇的科學(xué)問(wèn)題，旨在鼓勵(lì)高級(jí)問(wèn)題回答的研究。數(shù)據(jù)集被分成挑戰(zhàn)集和簡(jiǎn)易集，前者只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問(wèn)題。問(wèn)題分為以下幾個(gè)部分：

挑戰(zhàn)訓(xùn)練集：1,119
挑戰(zhàn)開(kāi)發(fā)集：299
挑戰(zhàn)測(cè)試集：1,172
簡(jiǎn)易訓(xùn)練集：2,251
簡(jiǎn)易開(kāi)發(fā)集：570
簡(jiǎn)易測(cè)試集：2,376

論文中提出了一個(gè)新的問(wèn)題集、文本語(yǔ)料庫(kù)和 baseline，這些共同構(gòu)成了 AI2 推理挑戰(zhàn)賽（ARC），以鼓勵(lì)人工智能研究在高級(jí)問(wèn)題回答中的應(yīng)用。它需要比之前的挑戰(zhàn)（如 SQUAD 或 SNLI）擁有更強(qiáng)大的知識(shí)和推理能力。ARC 問(wèn)題集分成挑戰(zhàn)集和簡(jiǎn)易集，挑戰(zhàn)集只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問(wèn)題。該數(shù)據(jù)集僅包含問(wèn)題（用于人類測(cè)試），也是該領(lǐng)域目前最大的公開(kāi)數(shù)據(jù)集（共 7,787 個(gè)問(wèn)題）。我們?cè)谔魬?zhàn)集上測(cè)試了幾條基線，其中包括在 SQUAD 和 SNLI 任務(wù)中領(lǐng)先的神經(jīng)網(wǎng)絡(luò)模型，但發(fā)現(xiàn)沒(méi)有一個(gè)能夠顯著優(yōu)于隨機(jī)基線，這也反映了該項(xiàng)任務(wù)的難度。我們還發(fā)布了 ARC 語(yǔ)料庫(kù)，這是一個(gè)與任務(wù)相關(guān)的大小為 14M 的科學(xué)語(yǔ)句語(yǔ)料庫(kù)，并且實(shí)現(xiàn)了三種基線神經(jīng)網(wǎng)絡(luò)模型的測(cè)試。你的模型能否在上面更好地運(yùn)行？

以下是 ARC 問(wèn)題集在測(cè)試分區(qū)上的分?jǐn)?shù)（單位：％正確率）。

評(píng)分注釋：如果模型能推測(cè)出給定問(wèn)題的正確答案k線圖，得分為1 / k分。

加速AI 2.0，ARC推理挑戰(zhàn)賽等你來(lái)戰(zhàn)！