IROS 2021 | 基于無監督學習環境模型的機器人運動控制

本文作者：我在思考中

2021-09-06 11:58

導語：本文是機器人領域頂級會議 IROS 2021入選論文《基于無監督學習環境模型的機器人運動控制》的解讀。該論文由北京大學前沿計算研究中心董豪課題組主導完成。

AI科技評論報道

導讀：本文是機器人領域頂級會議 IROS 2021入選論文《基于無監督學習環境模型的機器人運動控制（DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos）》的解讀。該論文由北京大學前沿計算研究中心董豪課題組主導完成。

項目主頁：https://hyperplane-lab.github.io/dmotion/

論文地址：https://arxiv.org/abs/2103.04301

研究背景

在機器人控制、基于模型的強化學習領域，學習環境的模型是重要的問題?，F有方法學習環境模型通常需要大量從環境中采集的帶標簽的數據，如智能體動作、物體位置、運動的真實標注，在許多現實場景的應用中有局限性。

而認知科學的研究認為，人類嬰兒能夠僅通過視覺觀察，建立物理世界的模型、進行預測。無監督地建立物理模型能夠幫助人類與環境交互、操控工具來完成各種任務。如圖1的例子所示：玩家 B 通過觀察玩家 A 操作，學習如何玩一個游戲。為學會玩游戲，玩家 B 需要建立游戲的模型，知道鍵盤上的操作（動作標注）與畫面中主角動作的對應關系、采取某個動作會如何影響游戲的狀態。現實中，玩家 B 大部分時間都會只關注游戲畫面，而不去觀察玩家 A 操作鍵盤的每一個動作。對游戲模型的理解，例如哪個是主角、主角和游戲環境是怎么互動的，大多是通過觀看游戲畫面完成的；觀察鍵盤的操作僅僅是為了知道如何去控制主角的每個動作。

圖1. 學習玩游戲的例子

受此啟發，我們研究如何利用缺少動作標注的視頻數據學會環境模型，來實現基于模型的機器人運動控制。如下圖所示，我們提出的方法（DMotion）首先從無監督的視頻中解耦智能體的運動、學習物體之間的交互規律；最后通過少量的帶有動作標注的數據，DMotion 建立動作標注到智能體運動的映射，學會環境模型。

圖2. DMotion學習“機器人推物體”環境的過程

方法簡介

圖3. DMotion的訓練框架，由Object Extractor和Interaction Learner組合，進行端到端的學習

問題定義：環境是馬爾可夫決策過程

(S,A,P)

，假設只有一個智能體，動作

a\in A

控制智能體的位移，觀測空間是 RGB 圖像

x\in X

。提供環境中采集的視頻數據

\{\tau =(x_1,\ldots,x_T)\}

和少量帶動做標注的數據

\{(x_t,a_t,x_{t+1})\}

作為訓練數據，任務的目標是得到環境的模型

P(x_{t+1}|x_{1:t},a_t)

。

物體解耦模塊（Object Extractor）：圖像編碼器（Image Encoder）將輸入圖像

x_t

分解為一組特征圖

\left\{m_t^i\right\}_{i=0}^{n-1}

，來表示不同物體的空間位置信息。運動編碼器（Motion Encoder）輸入連續幾幀圖像

(x_t,x_{t+1})

，輸出一組空間變換矩陣

\left\{\varphi_t^i\right\}_{i=0}^{n-1}

，來表示每個物體從時刻

t

到

t+1

發生的位置變換。

\varphi

是2*3矩陣，由2*2旋轉矩陣和

x,y

方向的平移組成?？臻g變換器（Spatial Transformer）對特征圖進行仿射變換

m_{t+1}^i=ST(m_t^i,\varphi_t^i)

，以得到

t+1

時刻的特征圖，再通過解碼器（Image Decoder）對圖像

x_{t+1}

進行重構。

交互學習模塊（Interaction Learner）：此模塊輸入歷史觀測

(\ldots,x_{t-1},x_t)

和第一張變換后的特征圖

m_{t+1}^0

，輸出對

x_{t+1}

的預測。為準確預測

t+1

時刻所有物體的位置，輸入

(m_{t+1}^0,x_{1:t})

中必須含有智能體的動作信息

a_t

。而僅當

m_{t+1}^0

是智能體的特征圖時，此模塊的輸入才含有充分的動作信息。

Object Extractor 和 Interaction Learner 在視頻數據集上端到端地訓練，優化目標是：

直觀地，最小化前一項能夠激勵圖像編碼器解耦不同的物體、運動編碼器分解不同物體的位移，最小化后一項能夠激勵第一張特征圖表示智能體的空間位置信息、交互學習模塊學習用

m_{t+1}^0

代替

a_t

的環境模型。

動作映射（Action-Transformation Mapping）：為將交互學習模塊轉化為輸入真實動作

a_t

的環境模型，我們利用少量的帶動作標注的數據學習映射

a_t\rightarrow\varphi_t^0

。環境模型做預測的流程如下：輸入歷史觀測

x_{1:t\ }

和智能體動作

a_t

，通過動作映射將

a_t

轉換為矩陣

\varphi_t^0

，通過圖像編碼器提取

m_t^0

，用空間變換器得到

m_{t+1}^0

，最后通過交互學習模塊輸出下一時刻的觀測

x_{t+1}

。

圖4. DMotion應用于機器人運動控制的框架

機器人運動控制：DMotion 應用于機器人運動控制的框架如圖4所示。給定一個目標圖像，規劃算法利用學習的環境模型（Forward Model），搜索出最優的決策動作

a_t

，從而控制環境中的機械臂推動物體，達到目標圖像的物體擺放位置。

實驗結果

視頻預測：我們以圖像均方誤差（MSE）和物體位置的平均誤差（Pos err.）為指標，在 Grid World、Robot Pushing 環境中測試視頻預測的準確性。表1顯示了我們方法的表現比所有使用10%標注數據的有監督方法更好。在多數指標上，我們方法的準確性超過了使用全部標注數據的監督學習方法。

表1. 視頻預測的定量結果，數字越小表示越準確

機器人運動控制：我們在 Robot Pushing 環境中測試基于模型的機器人運動控制。圖6顯示，只有用我們的方法作為環境模型時，能夠有效地完成任務，使環境中物體位置與目標位置的距離顯著下降。圖7對此進行了解釋：可視化不同模型做多步預測的過程，只有我們的方法保證了機械臂始終是清晰的，其他方法在多步預測后機械臂的部分均出現模糊，導致規劃算法不能有效執行。我們認為，我們的方法對智能體的空間位置和運動進行顯式地表示，有利于模型輸出智能體不模糊的圖像。