0
| 本文作者: 汪思穎 | 2018-04-06 13:41 |
雷鋒網(wǎng) AI 研習(xí)社按:日前,OpenAI 啟動一項(xiàng)遷移學(xué)習(xí)比賽,這一比賽為期兩個月(4 月 5 日-6 月 5 日),參賽者需要讓智能體來玩風(fēng)靡一時的 Sonic The Hedgehog(刺猬索尼克)游戲。這一比賽將會評出三大獎項(xiàng),參賽者有機(jī)會獲得豐厚獎勵,并與 OpenAI 共同撰寫比賽技術(shù)文檔。

雷鋒網(wǎng) AI 研習(xí)社將在下文介紹關(guān)于比賽的詳細(xì)信息。
在 OpenAI 官網(wǎng)可以看到,這次比賽將會衡量強(qiáng)化學(xué)習(xí)算法基于以往經(jīng)驗(yàn)的泛化能力。“在典型的強(qiáng)化學(xué)習(xí)研究中,算法是在相同環(huán)境下進(jìn)行訓(xùn)練的,這使得算法擅長記憶,并有很多超參數(shù)。此次競賽將會在電子游戲關(guān)卡中測試算法——參賽選手需要讓智能體玩 Sonic The Hedgehog(刺猬索尼克)游戲,用于測試的游戲關(guān)卡此前從沒出現(xiàn)過。
此次比賽基于 Gym Retro 平臺。此外,為了助于大家比賽,OpenAI 也開源 retro-baselines,這一工具展示了如何在比賽任務(wù)中運(yùn)行多個強(qiáng)化學(xué)習(xí)算法。比賽為期兩個月(4 月 5 日-6 月 5 日),獲勝者將得到一些很棒的獎品。
以下是參賽詳情:
參賽者訓(xùn)練智能體(或者編寫腳本)來玩 Sonic The Hedgehog 游戲;
參賽者將智能體打包到 Docker 容器提交;
OpenAI 對提交的智能體進(jìn)行一套秘密測試;
排行榜上會出現(xiàn)智能體的得分情況。
下面的圖解對這個過程進(jìn)行了詳細(xì)說明。

OpenAI 表示,強(qiáng)化學(xué)習(xí)的下一步是利用以往經(jīng)驗(yàn)快速在新環(huán)境中學(xué)習(xí)。目前的算法很容易記憶,但不能很好地適應(yīng)新的情況。雖然這次比賽的重點(diǎn)是電子游戲,但他們希望獲勝的技術(shù)能適用于更廣泛的領(lǐng)域。
比賽規(guī)則如下:
一個團(tuán)隊只能用一個帳戶;
可以與其他團(tuán)隊分享短代碼片段或指導(dǎo)代碼,但不能分享完整或部分解決方案;
參賽選手只能隸屬于一個團(tuán)隊。
下面是對「最佳成績獎」(Best Score)和「最佳代碼獎」(Best Writeup)的介紹。要想爭奪這兩類獎項(xiàng),參賽者必須在比賽最后階段將自己提交的智能體開源。每類獎項(xiàng)的前三名都將獲得獎勵。
此外,還有額外的「最佳支持獎」(Best Supporting Materials)。
所有獲獎?wù)邔⑹苎c OpenAI 一起完成這一比賽的技術(shù)報告。
比賽規(guī)則頁面:https://contest.openai.com/details
Leaderboard 頁面:https://contest.openai.com/leaderboard
Benchmark 詳細(xì)描述:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/retro-contest/gotta_learn_fast_report.pdf
雷鋒網(wǎng) AI 研習(xí)社編譯整理。
via:https://contest.openai.com
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。