0
該論文由清華大學與北京銀河通用機器人股份有限公司合作完成。論文的共同第一作者為銀河通用研究團隊成員薛晗、梁斯凱和張智楷,其中薛晗和張智楷為清華大學學生,指導老師為清華大學助理教授弋力。
一、傳統避障,困在“低效試錯”里在堆滿雜物的客廳里穿梭——需要彎腰避開低矮的咖啡桌、抬腿跨過地上的書本、側身擠過沙發與書架間的窄縫,這對人類來說輕而易舉。但對機器人而言,卻是融合環境感知、動作規劃與碰撞規避的復雜挑戰。
傳統強化學習(RL)僅在碰撞發生時給予懲罰,機器人需要反復試錯才能摸索出安全路徑,學習效率極低;而且直接處理激光雷達、攝像頭的原始高維數據,機器人難以快速識別“自身與障礙物的空間關系”,比如“頭部是否會撞到吊燈”“腿部能否跨過書本”。現有方法多針對單一類型障礙物(如地面凸起、高空遮擋),無法應對“地面有雜物+兩側有阻擋+頭頂有吊燈”的全空間約束場景。
清華大學與Galbot團隊提出的HumanoidPF(人形勢能場) ,為機器人賦予了“避障直覺”:它將機器人與障礙物的空間關系編碼為連續的梯度場,像無形的“力”引導機器人自主選擇安全路徑,無需復雜計算就能完成彎腰、抬腿、側身等靈活動作,成功實現復雜室內場景的無碰撞穿梭。
它的核心魅力在于:不再讓機器人依賴“碰撞后懲罰”的低效試錯,而是通過前瞻性的環境引導,讓避障成為一種“本能反應”,大幅提升了人形機器人在真實家居場景的實用性。
? 論文標題:Collision-Free Humanoid Traversal in Cluttered Indoor Scenes
? 相關論文:https://arxiv.org/abs/2601.16035
? 項目主頁:https://axian12138.github.io/CAT/
? GitHub:https://github.com/GalaxyGeneralRobotics/Click-and-Traverse
二、HumanoidPF:給機器人裝“避障導航儀”
HumanoidPF的靈感源自經典的人工勢能場(APF),但針對人形機器人的多關節結構進行了重構——它將目標點視為“吸引力”,障礙物視為“排斥力”,形成連續的梯度場,為機器人的每個身體部位提供明確的運動指引。
HumanoidPF通過吸引力場和排斥力場的疊加,生成全局導航梯度場,核心公式如下:
? 吸引力場(引導向目標):

是機器人身體部位x到目標點g的最短無碰撞路徑(測地線距離),確保引導路徑避開障礙物,而非直線穿越。
? 排斥力場(遠離障礙物):

是基于障礙物的帶符號距離(signed distance field, sdf)——距離障礙物越近,排斥力越強,避免碰撞。
? 最終引導場(合成吸引力與排斥力):

梯度場的方向,就是機器人身體部位的最優運動方向,既遠離障礙物,又朝向目標點。

HumanoidPF示意圖:左圖為勢能場2D示意圖(紅色為障礙物排斥區,藍色為目標吸引力區);右圖為運動方向分布2D示意圖,顏色越深表示該方向越安全,引導機器人自主選擇最優路徑。
人形機器人有頭、軀干、四肢等多個部位,直接應用勢能場可能出現運動沖突(如左手要向左躲、右手要向右躲)。為此,HumanoidPF引入優先級加權機制:
? 核心部位優先:骨盆等核心部位權重更高,確保整體運動方向穩定;四肢權重較低,靈活適配核心方向。公式如下:
? 危險部位加權:根據身體部位與障礙物的距離(d(x_k))和運動速度(v_k),動態提升危險部位的權重,公式如下:
距離障礙物越近、運動速度越快,權重越高,優先規避碰撞風險。
最終的引導場為:
確保全身運動協調一致,無沖突。
HumanoidPF通過“感知輸入+獎勵引導”雙重方式,融入強化學習訓練,大幅提升學習效率:
? 作為感知輸入:在機器人13個關鍵身體部位(頭、胸、骨盆、四肢關節等)查詢梯度場向量,形成緊湊的環境感知特征,讓機器人直接“感知”該如何移動身體;
? 作為獎勵引導:將梯度場引導的運動方向,建模為馮·米塞斯-費舍爾(vMF)分布,鼓勵機器人動作與引導方向對齊,提供密集、前瞻性的獎勵信號,公式如下:
其中

是引導方向,

是方向集中度(核心部位集中度更高),

是機器人實際運動方向。
這種設計讓機器人無需等到碰撞發生,就能獲得實時反饋,學習效率大幅提升。
整體技術 pipeline:左:HumanoidPF構建及在學習中的雙重作用(感知輸入+獎勵引導);右:混合場景生成與真實部署流程,從仿真訓練到“點擊導航”實際應用。
要應對真實世界的復雜環境,機器人需要在多樣化場景中訓練。為此,研究團隊提出混合場景生成策略,大幅提升政策的泛化能力:
1. 真實場景裁剪:從3DFRONT等真實室內數據集,裁剪5m×5m的場景塊,保留家具、家電等真實障礙物布局;
2. 程序化障礙物生成:人工生成“地面凸起、兩側阻擋、高空懸掛”的全空間約束場景,甚至通過旋轉、噪聲擾動,模擬不規則障礙物(如散落的書本、傾斜的盒子);
3. 課程學習:從簡單場景(單一障礙物)逐步過渡到復雜場景(多障礙物全空間約束),讓機器人循序漸進掌握避障技能。
這種訓練方式,讓機器人見過“彎腰躲吊燈+抬腿跨雜物+側身擠窄縫”的復合場景,在真實環境中遇到類似情況時,能快速做出反應。
避障實測場景:(a)8種典型測試場景的避障行為;(b)程序化生成的復雜障礙物場景;(c)真實世界“彎腰-跨障”復合任務;(d)動態干擾下的避障表現,機器人能應對物體移動的突發情況。
HumanoidPF在Unitree G1人形機器人上完成了全面測試,無論是仿真還是真實場景,都展現出卓越的避障能力:
在“彎腰-跨障”“側身-彎腰”“多障礙物連續避障”等8類復雜場景中,HumanoidPF的成功率均超過90%,遠高于ASTraversal(28.1%-82.1%)和Humanoid Parkour(33.3%-88.7%)等基線方法。
其中,在最具挑戰性的“側身-彎腰-跨步”場景(需要同時規避兩側和上方障礙物),HumanoidPF的成功率達到86.6%,遠超基線,充分證明其處理全空間約束的能力。
8類場景避障性能對比:HumanoidPF(最后一行)在所有場景中均實現最高成功率(SR%)和最小距離誤差(DE(m)),優勢顯著。
研究團隊將政策部署為“點擊導航(Click-and-Traverse)”系統:用戶在地圖上點擊目標位置,機器人通過激光雷達構建實時環境地圖和HumanoidPF,自主規劃路徑并穿梭,無需手動操控。
在真實室內測試中,機器人成功完成:
? 彎腰避開低矮茶幾(高度0.4m);
? 抬腿跨過15cm高的書本;
? 側身擠過0.8m寬的窄縫;
? 應對“彎腰+跨障”復合任務,全程無碰撞,表現穩定。

? 零-shot泛化:在未訓練過的藝術家設計場景中,包含真實家具和不規則障礙物,訓練后的政策在“簡單場景”成功率95.2%,“復雜場景”成功率66.7%,遠高于僅用真實場景訓練的基線;
? 動態干擾:在機器人穿梭過程中移動障礙物,它能實時更新HumanoidPF,調整運動軌跡,避免碰撞,展現出強魯棒性。
混合場景生成的泛化性能:加入高難度程序化場景訓練后(最后一行),機器人在未知復雜場景的成功率從1.2%提升至66.7%,泛化能力大幅提升。
五、關鍵優勢:為什么HumanoidPF如此高效?
1. 前瞻性引導:不再依賴“碰撞后懲罰”,而是通過梯度場提供實時、密集的運動指引,學習效率提升數倍;
2. 低遷移gap:勢能場作為連續的空間表示,能平滑傳感器噪聲和場景細節差異,從仿真到真實世界的遷移幾乎無需額外微調;
3. 通用適配:不依賴特定障礙物類型或場景結構,無論是規則家具還是不規則雜物,都能通過勢能場編碼空間關系,泛化性極強。
對比其他工作:S={g,l,o} 表示“地面(ground)有雜物+兩側(lateral)有阻擋+頭頂(overhead)有吊燈”的全空間約束。
HumanoidPF的核心價值,是為機器人構建了一套“機器人-障礙物關系”的通用語言——它將復雜的空間感知轉化為直觀的運動指引,讓避障從“低效試錯”變為“本能反應”。
隨著技術完善,人形機器人或許能像人類一樣,在堆滿雜物的房間里靈活穿梭,自主完成家務、取物等任務,真正走進日常生活。而HumanoidPF的提出,為通用人形機器人的環境適應能力奠定了關鍵基礎。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。