導讀: 本文是機器人領域頂級會議 IROS 2021入選論文《 基于無監督學習環境模型的機器人運動控制 (DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos)》的解讀。該論文由北京大學前沿計算研究中心董豪課題組主導完成。
項目主頁: https://hyperplane-lab.github.io/dmotion/ 論文地址: https://arxiv.org/abs/2103.04301
在機器人控制、基于模型的強化學習領域,學習環境的模型是重要的問題?,F有方法學習環境模型通常需要大量從環境中采集的帶標簽的數據,如智能體動作、物體位置、運動的真實標注,在許多現實場景的應用中有局限性。 而認知科學的研究認為,人類嬰兒能夠僅通過視覺觀察,建立物理世界的模型、進行預測。 無監督地建立物理模型能夠幫助人類與環境交互、操控工具來完成各種任務。 如圖1的例子所示:玩家 B 通過觀察玩家 A 操作,學習如何玩一個游戲。為學會玩游戲,玩家 B 需要建立游戲的模型,知道鍵盤上的操作(動作標注)與畫面中主角動作的對應關系、采取某個動作會如何影響游戲的狀態。現實中,玩家 B 大部分時間都會只關注游戲畫面,而不去觀察玩家 A 操作鍵盤的每一個動作。對游戲模型的理解,例如哪個是主角、主角和游戲環境是怎么互動的,大多是通過觀看游戲畫面完成的;觀察鍵盤的操作僅僅是為了知道如何去控制主角的每個動作。 受此啟發,我們研究如何利用缺少動作標注的視頻數據學會環境模型,來實現基于模型的機器人運動控制。 如下圖所示,我們提出的方法(DMotion) 首先從無監督的視頻中解耦智能體的運動、學習物體之間的交互規律;最后通過少量的帶有動作標注的數據,DMotion 建立動作標注到智能體運動的映射,學會環境模型。 圖2. DMotion學習“機器人推物體”環境的過程 圖3. DMotion的訓練框架,由Object Extractor和Interaction Learner組合,進行端到端的學習 問題定義: 環境是馬爾可夫決策過程 ,假設只有一個智能體,動作 控制智能體的位移,觀測空間是 RGB 圖像 。提供環境中采集的視頻數據 和少量帶動做標注的數據 作為訓練數據,任務的目標是得到環境的模型 。物體解耦模塊(Object Extractor): 圖像編碼器(Image Encoder)將輸入圖像 分解為一組特征圖 ,來表示不同物體的空間位置信息。運動編碼器(Motion Encoder)輸入連續幾幀圖像 ,輸出一組空間變換矩陣 ,來表示每個物體從時刻 到 發生的位置變換。 是2*3矩陣,由2*2旋轉矩陣和 方向的平移組成??臻g變換器(Spatial Transformer)對特征圖進行仿射變換 ,以得到 時刻的特征圖,再通過解碼器(Image Decoder)對圖像 進行重構。交互學習模塊(Interaction Learner): 此模塊輸入歷史觀測 和第一張變換后的特征圖 ,輸出對 的預測。為準確預測 時刻所有物體的位置,輸入 中必須含有智能體的動作信息 。而僅當 是智能體的特征圖時,此模塊的輸入才含有充分的動作信息。Object Extractor 和 Interaction Learner 在視頻數據集上端到端地訓練,優化目標是: 直觀地,最小化前一項能夠激勵圖像編碼器解耦不同的物體、運動編碼器分解不同物體的位移,最小化后一項能夠激勵第一張特征圖表示智能體的空間位置信息、交互學習模塊學習用 代替 的環境模型。 動作映射(Action-Transformation Mapping): 為將交互學習模塊轉化為輸入真實動作 的環境模型,我們利用少量的帶動作標注的數據學習映射 。環境模型做預測的流程如下:輸入歷史觀測 和智能體動作 ,通過動作映射將 轉換為矩陣 ,通過圖像編碼器提取 ,用空間變換器得到 ,最后通過交互學習模塊輸出下一時刻的觀測 。機器人運動控制: DMotion 應用于機器人運動控制的框架如圖4所示。給定一個目標圖像,規劃算法利用學習的環境模型(Forward Model),搜索出最優的決策動作 ,從而控制環境中的機械臂推動物體,達到目標圖像的物體擺放位置。視頻預測: 我們以圖像均方誤差(MSE)和物體位置的平均誤差(Pos err.)為指標,在 Grid World、Robot Pushing 環境中測試視頻預測的準確性。表1顯示了我們方法的表現比所有使用10%標注數據的有監督方法更好。在多數指標上,我們方法的準確性超過了使用全部標注數據的監督學習方法。機器人運動控制: 我們在 Robot Pushing 環境中測試基于模型的機器人運動控制。圖6顯示,只有用我們的方法作為環境模型時,能夠有效地完成任務,使環境中物體位置與目標位置的距離顯著下降。圖7對此進行了解釋:可視化不同模型做多步預測的過程,只有我們的方法保證了機械臂始終是清晰的,其他方法在多步預測后機械臂的部分均出現模糊,導致規劃算法不能有效執行。我們認為,我們的方法對智能體的空間位置和運動進行顯式地表示,有利于模型輸出智能體不模糊的圖像。圖5. DMotion在機器人運動控制中的部分效果 圖6. 機器人運動控制的定量結果,縱軸表示與目標的差距,橫軸表示運行步數 圖7. 機器人運動控制的規劃過程中,不同環境模型的預測 特征圖可視化: 在對圖像編碼器輸出的第一張特征圖 進行可視化后,我們看到特征圖顯示了智能體的 mask,丟棄了其他物體的空間位置信息,與我們方法的假設相一致。本文提出了一種無監督地用視頻數據學習環境模型的新方法,在視頻預測、機器人運動控制的任務中表現了相比監督學習的優越性。未來的研究可以將該方法推廣到連續動作空間、多智能體、多關節智能體的場景,以適應更復雜的任務需要。 雷鋒網雷鋒網雷鋒網
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知 。