找東西不再瞎蒙！CMU、FAIR開發(fā)出有常識的機器人

本文作者：青暮

編輯：劉曉坤

2020-07-23 14:30

導語：但要完全解決常識問題，還有很長的路要走~

作者 | 青暮

編輯 | 叢末

CMU和FAIR合作開發(fā)了一款語義導航系統(tǒng)SemExp，可以利用常識來進行導航和執(zhí)行尋物任務，SemExp還在上個月的CVPR室內(nèi)目標導航挑戰(zhàn)賽中贏得了冠軍。

如果SemExp事先知道沙發(fā)在客廳，冰箱在廚房，它在尋找沙發(fā)或冰箱時會更有效率，即使是在一個陌生的地方。也就是說，SemExp可以使用類似于人類常識的知識來找東西。

上個月，名為SemExp的機器人在CVPR上贏得了室內(nèi)目標導航挑戰(zhàn)賽（Habitat ObjectNav Challenge），險勝三星中國研究院。這是CMU團隊在年度挑戰(zhàn)賽中連續(xù)第二次獲得第一名。

SemExp（即目標導向的語義探索）使用機器學習方法來尋找目標物體。SemExp能夠區(qū)分茶幾和廚房桌子，從而推斷出它位于哪個房間。

CMU機器學習系博士生Devendra S. Chaplot說，SemExp可以戰(zhàn)略性地思考如何搜索事物。也就是說，SemExp理解物體和房間布局之間的語義關(guān)系。

相比之下，傳統(tǒng)的機器人導航系統(tǒng)通過構(gòu)建顯示障礙物的地圖來探索空間。機器人最終能成功找到目標，但是路線可能是迂回曲折的，會進行很多不必要的探索。

過去使用機器學習來訓練語義導航系統(tǒng)的嘗試效果不佳，因為它們傾向于記住目標及其在特定環(huán)境中的位置。這些環(huán)境不僅復雜，而且系統(tǒng)通常難以將其學到的知識泛化到不同的環(huán)境。一旦到了新環(huán)境，系統(tǒng)就很難利用已有的經(jīng)驗執(zhí)行類似的任務。SemExp采用領(lǐng)域無關(guān)的模塊化方法解決了這個問題，它不僅能夠適應新的虛擬環(huán)境，還能遷移到現(xiàn)實世界中。

SemExp：要找烤箱（oven）？烤箱不也在廚房里嘛。

這項研究由Chaplot、CMU Robotics Institute副教授Abhinav Gupta、CMU機器學習系教授Ruslan Salakhutdinov和FAIR的Dhiraj Gandhi共同完成。

找東西不再瞎蒙！CMU、FAIR開發(fā)出有常識的機器人

論文地址：https://arxiv.org/pdf/2007.00643.pdf

項目地址：https://www.cs.cmu.edu/~dchaplot/projects/semantic-exploration.html

參考內(nèi)容：https://www.cmu.edu/news/stories/archives/2020/july/robot-navigation.html

Chaplot說，該系統(tǒng)利用其語義洞察力來確定尋找特定物體的最佳位置。“一旦決定要去哪里，就可以使用經(jīng)典規(guī)劃方法來達到目標。”

事實證明，這種模塊化方法在很多方面富有成效。SemExp的學習過程專注于目標與房間布局之間的關(guān)系，而不是學習路線規(guī)劃；應用語義推理確定最有效的搜索策略；最后，應用經(jīng)典的導航規(guī)劃使機器人到達目的地。

語義導航將使人們與機器人的交互變得更加容易，人們能夠簡單地告訴機器人在特定位置取回一件物品。

學習“餐桌在哪里”的常識

在尋找“餐桌”的任務中，就語義理解而言，涉及目標檢測，即“餐桌”的外觀。研究者利用了現(xiàn)有的預訓練目標檢測和語義分割模型來構(gòu)建語義圖，而不是從頭開始學習。

此外，還涉及對更可能在哪里找到“餐桌”的場景的理解。這需要長期的情節(jié)記憶以及學習場景中目標相對位置的語義先驗。

學習語義先驗，即目標和區(qū)域關(guān)聯(lián)的常識，可以使智能體使用情節(jié)記憶來決定下一個要探索的區(qū)域，以便在最短的時間內(nèi)找到目標。

長期的情景記憶使智能體可以跟蹤去過和未去過的區(qū)域。

SemExp由兩個模塊組成，即語義映射模塊（Semantic Mapping）和面向目標的語義策略模塊（Goal-Oriented Semantic Policy）。

語義映射模塊用于構(gòu)建明確的語義圖，面向目標的語義策略模塊使用可理解語義的長期策略來學習語義先驗。

語義映射模塊接收RGB（It）和景深（Dt）圖像序列，并生成自上而下的語義圖。找東西不再瞎蒙！CMU、FAIR開發(fā)出有常識的機器人

面向目標的語義策略根據(jù)當前的語義圖確定長期目標，以達到給定的目標（G）。

研究者使用神經(jīng)網(wǎng)絡來學習語義先驗。神經(jīng)網(wǎng)絡以語義圖、智能體的當前和過去位置以及目標作為輸入，并預測自上而下的地圖空間中的長期目標。如此，就能將目標類別和通常所處的區(qū)域關(guān)聯(lián)起來。智能體看不到目標時，就先以區(qū)域為線索。比如智能體在找餐桌時，所處位置看不到餐桌，就會先以餐桌可能在的區(qū)域為線索（餐桌一般放在客廳吧）。

面向目標的語義策略使用強化學習進行訓練，將以目標與智能體的距離減小作為獎勵。

實驗結(jié)果

下圖展示了Gibson測試集場景中SemExp的示例軌跡。智能體看到的采樣圖像顯示在上行，預測的語義圖顯示在下行。

SemExp的目標是“床”。面向目標的語義策略選擇的長期目標以藍色顯示。帶有智能體軌跡的真實地圖（智能體看不到）顯示在右側(cè)，以供參考。

下圖展示了SemExp尋找椅子的第一人稱視角、語義圖和軌跡圖。

如下表所示，與Gibson和MP3D數(shù)據(jù)集的基線相比，SemExp的性能均達到最佳。找東西不再瞎蒙！CMU、FAIR開發(fā)出有常識的機器人

SemExp沒有使用覆蓋率最大化探索策略（目標不可見），而是訓練面向目標的語義探索策略，該策略學習語義先驗以進行有效導航。如此，可以節(jié)省不必要的全面探索的時間。

下圖展示了使用面向目標策略（圖左）和不使用面向目標策略（圖右）的探索軌跡，前者使用了81s找到目標，后者使用了332s才找到同一個目標。

下圖展示了SemExp遷移至真實世界的表現(xiàn)，SemExp的目標是“盆栽”，它成功找到了。

SemExp學到了多少常識？

CMU在官網(wǎng)報道中宣稱SemExp利用了常識執(zhí)行尋物任務，但實際上這種常識還是非常有限的，它只是建立了某個物體和通常存在區(qū)域的統(tǒng)計關(guān)聯(lián)。沒錯，冰箱大概率存在廚房，但在辦公室場景里，冰箱一般而言會有，但廚房就很少見了。

一般而言，常識是無法窮盡的不成文規(guī)則，無法用邏輯以有限的方式進行壓縮，何況常識之間甚至可能是互相沖突的（例如印度人的搖頭表示肯定，和大多數(shù)國家相反）。常識是人類對世界運作方式的印象，由數(shù)不清的知識片段構(gòu)成。常識對于人類的預測能力很有幫助，可以幫助人類在日常生活中保證生存以及便利地解決問題。

要理解常識，語言通常是不夠的，需要結(jié)合人的感覺和理解，并且要融入統(tǒng)一的場景，這必然涉及到多模態(tài)數(shù)據(jù)的處理。

要解決常識問題，還有很長的路要走。即便是強大如OpenAI開發(fā)的GPT-2那樣的語言模型，也經(jīng)不住常識問題的考驗（它不知道木柴+火柴=火）。Douglas Lenat于1984年設立的Cyc知識庫不可能通過編寫條目窮盡所有的常識，也無法克服脆弱性問題（常識應用中的模棱兩可現(xiàn)象）。艾倫人工智能研究所提出的自動知識圖譜構(gòu)建模型COMET，將常識推理想象成對新輸入生成即便不完美也是合理的響應過程，作為融合深度學習和符號推理的嘗試，在一定程度上緩解了覆蓋性和脆弱性問題。

CMU的這項研究值得稱道的地方在于，將視覺信息轉(zhuǎn)換為語義知識構(gòu)建導航系統(tǒng)的常識，將多種模態(tài)的數(shù)據(jù)進行了關(guān)聯(lián)，而沒有局限于語言知識。SemExp在構(gòu)建常識的路上，走出了穩(wěn)健的一步。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

青暮

編輯

發(fā)私信

當月熱門文章