成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給楊曉凡
    發(fā)送

    0

    OpenAI提出層級(jí)強(qiáng)化學(xué)習(xí),給長序列動(dòng)作學(xué)習(xí)帶來新的曙光

    本文作者: 楊曉凡 2017-10-31 15:23
    導(dǎo)語:模仿人類行為帶來的又一個(gè)突破

    雷鋒網(wǎng) AI 科技評(píng)論按:強(qiáng)化學(xué)習(xí)是學(xué)到一個(gè)策略解決智能體與環(huán)境間互動(dòng)問題的重要學(xué)習(xí)范式。不過以往的強(qiáng)化學(xué)習(xí)過程都常常很低效,在復(fù)雜環(huán)境中往往難以收斂。這一方面由于簡單的策略難以完善、細(xì)致地描述各種不同環(huán)境狀態(tài)下的不同行為,另一方面也有由于可能的行為的組合太多所以要探索的空間太大了。

    OpenAI的研究人員們這次就開發(fā)了一個(gè)層次化的強(qiáng)化學(xué)習(xí)算法,它可以學(xué)習(xí)到高階的行動(dòng),用來解決一系列不同的任務(wù),同時(shí)也可以快速學(xué)會(huì)解決總共需要上千個(gè)步驟的任務(wù)。當(dāng)這個(gè)算法用來解決導(dǎo)航問題時(shí),它能夠?yàn)椴煌较虻淖呋蛘吲佬袑W(xué)到一系列高級(jí)別的動(dòng)作,這也讓智能體能夠快速掌握新的導(dǎo)航任務(wù)。

    雷鋒網(wǎng) AI 科技評(píng)論把OpenAI博客的介紹文章編譯如下。

    方法思路

    人類應(yīng)對(duì)復(fù)雜問題的方法是把它們分解成一系列小的、可控的步驟。比如“做餡餅”就是由一系列高級(jí)別的行為組成的,取面粉、打雞蛋、攤在平底鍋內(nèi)、設(shè)定烤箱等等。人類能夠快速學(xué)到新任務(wù),靠的就是把已經(jīng)學(xué)過的步驟組合起來,即便每個(gè)步驟都可能需要百萬個(gè)低級(jí)別的行動(dòng)組成,像讓不同的肌肉做不同的動(dòng)作這樣。

    然而,當(dāng)前的強(qiáng)化學(xué)習(xí)算法的運(yùn)行方式都是在低層次的行動(dòng)中做暴力搜索,解決新問題的時(shí)候需要大量的嘗試。對(duì)于那些需要依次執(zhí)行很多個(gè)步驟的任務(wù)來說,這種搜索方法的效率就會(huì)變得非常低。

    OpenAI的研究人員們提出了一種基于層次化強(qiáng)化學(xué)習(xí)的解決方案。這種方法中,智能體用幾個(gè)高層次動(dòng)作組成的序列表征復(fù)雜的行為。這樣一來,智能體就可以解決復(fù)雜得多的任務(wù):整個(gè)解決方案中可能需要2000步左右的低層次動(dòng)作,層次化策略就可以把它們轉(zhuǎn)化成10個(gè)高層次動(dòng)作組成的序列,那么在這個(gè)10步動(dòng)作的序列中進(jìn)行搜索就比在2000步的序列中進(jìn)行搜索高效得多。

    共享層次的元學(xué)習(xí)

    OpenAI提出層級(jí)強(qiáng)化學(xué)習(xí),給長序列動(dòng)作學(xué)習(xí)帶來新的曙光

    OpenAI 提出的算法 meta-learning shared hierarchies(共享層次的元學(xué)習(xí),MLSH),能學(xué)到一個(gè)層次化的策略,其中的主策略可以在一系列子策略中進(jìn)行切換。每經(jīng)過N個(gè)時(shí)間步長,主策略就會(huì)選擇一個(gè)動(dòng)作;這里的N可以等于200。一個(gè)執(zhí)行N個(gè)時(shí)間步長的子策略就構(gòu)成了一個(gè)高級(jí)別的動(dòng)作。在研究員們研究的導(dǎo)航問題中,一個(gè)子策略就對(duì)應(yīng)了在一種不同的方向下走路或者爬行。

    在最開始的研究中,層次化策略都是顯式地手工編寫的。后來,他們把研究方向轉(zhuǎn)變?yōu)樽屇P驮谂c環(huán)境的互動(dòng)中自動(dòng)學(xué)到層次化結(jié)構(gòu)。從元學(xué)習(xí)的角度,研究者們把好的層次結(jié)構(gòu)定義為能夠在以前未見過的任務(wù)中迅速達(dá)到高回報(bào)的結(jié)構(gòu)。這樣,MLSH算法的目標(biāo)就變成了學(xué)到能夠在以前未見過的任務(wù)中快速學(xué)習(xí)的子策略。

    研究員們?cè)谠S多不同的任務(wù)中訓(xùn)練算法,其中的子策略是共享的,然后對(duì)于每個(gè)樣本任務(wù)學(xué)到一個(gè)新的主策略。在反復(fù)訓(xùn)練新的主策略的過程中,它也能自動(dòng)找到與主策略的學(xué)習(xí)表現(xiàn)最符合的子策略。

    實(shí)驗(yàn)結(jié)果

    OpenAI提出層級(jí)強(qiáng)化學(xué)習(xí),給長序列動(dòng)作學(xué)習(xí)帶來新的曙光

    類似這個(gè)螞蟻機(jī)器人的智能體可以高效地探索空間,它能在向下、向右、向上三個(gè)策略之間切換,而不是隨機(jī)地做出各種嘗試。

    OpenAI提出層級(jí)強(qiáng)化學(xué)習(xí),給長序列動(dòng)作學(xué)習(xí)帶來新的曙光

    這個(gè)高層次策略都學(xué)會(huì)了利用一個(gè)敵人(子策略從未見過)來讓它更快地達(dá)到目標(biāo)。采用的層次強(qiáng)化學(xué)習(xí)方法把大約需要3000個(gè)時(shí)間步長的迷宮問題簡化成了一個(gè)10步的子策略選擇問題。

    在訓(xùn)練一整晚后,一個(gè)訓(xùn)練用于解決9種不同迷宮的MLSH的智能體就學(xué)到了分別對(duì)應(yīng)著向上、向右和向下的動(dòng)作,然后它就可以用這些動(dòng)作幫它走出迷宮。

    在“螞蟻迷宮”環(huán)境中,一個(gè) Mujoco 螞蟻機(jī)器人被放在了9種不同的迷宮中,然后要從開始位置找到出口。OpenAI的新算法僅僅通過與環(huán)境互動(dòng)就成功找到了一組各有不同的子策略,把它們組成序列后走出迷宮。這些訓(xùn)練得到的子策略之后就可以用來解決更大的任務(wù)。

    雷鋒網(wǎng) AI 科技評(píng)論編譯。

    論文地址:https://arxiv.org/abs/1710.09767 

    GitHub地址:https://github.com/openai/mlsh (包含訓(xùn)練智能體的代碼和評(píng)估算法用到的Mujoco環(huán)境)

    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

    OpenAI提出層級(jí)強(qiáng)化學(xué)習(xí),給長序列動(dòng)作學(xué)習(xí)帶來新的曙光

    分享:
    相關(guān)文章

    讀論文為生

    日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說