打通視頻生成與機(jī)器人世界模型，BridgeV2W 讓機(jī)器人學(xué)會(huì)"預(yù)演未來(lái)"

本文作者：雷鋒專欄

編輯：張賢

2026-02-10 19:22

導(dǎo)語(yǔ)：BridgeV2W，讓機(jī)器人借助視頻生成模型“預(yù)演”自身行動(dòng)的后果——這條路，不僅走得通，而且可以走得很遠(yuǎn)。

機(jī)器人如何"腦補(bǔ)"未來(lái)？

想象一下，你面前擺著一杯咖啡，你伸手去拿，在你的手真正觸碰到杯子之前，你的大腦已經(jīng)在"腦補(bǔ)"了整個(gè)過(guò)程：手臂將如何移動(dòng)、杯子會(huì)是什么觸感、抬起后桌面的樣子……這種對(duì)未來(lái)場(chǎng)景的想象和預(yù)測(cè)能力，正是人類操控世界的核心認(rèn)知基石。

那么，能否賦予機(jī)器人同樣的“預(yù)演能力”，先在“腦海”中模擬動(dòng)作后果，再付諸執(zhí)行？這就是具身世界模型要做的事情：讓機(jī)器人在行動(dòng)前，就能“看見”未來(lái)。近年來(lái)，借助大規(guī)模視頻生成模型（如Sora、Wan等）強(qiáng)大的視覺先驗(yàn)，這一方向取得了令人矚目的進(jìn)展。

然而，一個(gè)尷尬的問題始終懸而未決：視頻生成模型的世界由像素編織而成，而機(jī)器人的語(yǔ)言卻是關(guān)節(jié)角度與位姿坐標(biāo)，它們使用完全不同的“表征語(yǔ)言”描述同一個(gè)物理世界。

為了解決上述問題，具身智能公司中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)推出 BridgeV2W，它通過(guò)一個(gè)極為優(yōu)雅的設(shè)計(jì)，具身掩碼（Embodiment Mask），一種由機(jī)器人動(dòng)作渲染出的“動(dòng)作剪影”，將坐標(biāo)空間的動(dòng)作無(wú)縫映射到像素空間，從而真正打通預(yù)訓(xùn)練視頻生成模型與世界模型之間的橋梁，讓機(jī)器人學(xué)會(huì)可靠地“預(yù)演未來(lái)”。

打通視頻生成與機(jī)器人世界模型，BridgeV2W 讓機(jī)器人學(xué)會(huì)

困境：三座大山擋住了機(jī)器人的"預(yù)演能力"

盡管前景廣闊，當(dāng)前的具身世界模型仍面臨三大核心挑戰(zhàn)：

1. 動(dòng)作與畫面“語(yǔ)言不通”。機(jī)器人動(dòng)作是關(guān)節(jié)角、末端位姿等坐標(biāo)數(shù)值，而視頻生成模型只“看”像素。直接拼接動(dòng)作向量效果有限，往往缺乏空間對(duì)齊的“硬連接”，模型難以理解。

2. 視角一變，世界就“崩”。同一動(dòng)作在不同視角下外觀迥異。現(xiàn)有方法在訓(xùn)練視角上尚可，一旦換視角，預(yù)測(cè)質(zhì)量驟降，而真實(shí)場(chǎng)景中，相機(jī)位置幾乎不可能復(fù)現(xiàn)訓(xùn)練設(shè)置。

3. 換一個(gè)機(jī)器人就得“從零開始”。單臂、雙臂、移動(dòng)底盤……結(jié)構(gòu)千差萬(wàn)別。現(xiàn)有方法往往需為每種機(jī)器人定制架構(gòu)，難以構(gòu)建統(tǒng)一的世界模型。

核心創(chuàng)新：僅憑"動(dòng)作剪影"，一舉破解三大難題

BridgeV2W 的核心洞察極其直覺：既然鴻溝源于“坐標(biāo) vs 像素”，那就把動(dòng)作直接“畫”進(jìn)畫面里！

它提出具身掩碼：利用機(jī)器人的 URDF 模型和相機(jī)參數(shù)，將動(dòng)作序列實(shí)時(shí)渲染為每幀圖像上的二值“動(dòng)作剪影”，精準(zhǔn)標(biāo)出機(jī)器人在畫面中的位置與姿態(tài)。

這一設(shè)計(jì)，一舉破解前述三大難題：

動(dòng)作-像素對(duì)齊：掩碼是天然的像素級(jí)信號(hào)，與視頻模型輸入空間完全匹配，無(wú)需模型“猜”坐標(biāo)的含義。
視角自適應(yīng)：掩碼隨當(dāng)前相機(jī)視角動(dòng)態(tài)生成，動(dòng)作與畫面始終對(duì)齊，模型因此天然泛化到任意新視角。
跨具身通用：只要提供 URDF，單臂、雙臂機(jī)器人都能用同一套框架生成對(duì)應(yīng)掩碼，無(wú)需修改模型結(jié)構(gòu)。

技術(shù)上，BridgeV2W 采用 ControlNet 式的旁路注入，將掩碼作為條件信號(hào)融入預(yù)訓(xùn)練視頻生成模型，在保留其強(qiáng)大視覺先驗(yàn)的同時(shí)，賦予其理解機(jī)器人動(dòng)作的能力。此外，為防止模型“偷懶”（只復(fù)現(xiàn)靜態(tài)背景），還引入光流驅(qū)動(dòng)的運(yùn)動(dòng)損失，引導(dǎo)其聚焦于任務(wù)相關(guān)的動(dòng)態(tài)區(qū)域。

實(shí)驗(yàn)結(jié)果：多場(chǎng)景、多機(jī)器人、多視角的全面驗(yàn)證

研究團(tuán)隊(duì)在多個(gè)設(shè)置下系統(tǒng)驗(yàn)證了BridgeV2W的能力，涵蓋不同機(jī)器人平臺(tái)、不同操作場(chǎng)景、未見視角和下游任務(wù)應(yīng)用。

DROID數(shù)據(jù)集：大規(guī)模單臂操作

DROID是目前最大規(guī)模的真實(shí)世界機(jī)器人操作數(shù)據(jù)集之一，數(shù)據(jù)采集跨越多個(gè)實(shí)驗(yàn)室和環(huán)境。BridgeV2W在該數(shù)據(jù)集上的表現(xiàn)尤為亮眼，在 PSNR、SSIM、LPIPS 等核心指標(biāo)上超越 SOTA 方法。

尤其在“未見視角”測(cè)試中，對(duì)比方法常出現(xiàn)畫面崩塌、肢體錯(cuò)位，而 BridgeV2W 依然生成物理合理、視覺連貫的未來(lái)視頻，充分驗(yàn)證了其視角魯棒性。在“未見場(chǎng)景”（全新桌面布局、背景）下，泛化能力同樣出色。

打通視頻生成與機(jī)器人世界模型，BridgeV2W 讓機(jī)器人學(xué)會(huì)

AgiBot-G1數(shù)據(jù)集：雙臂人形機(jī)器人

AgiBot-G1 是一個(gè)完全不同的雙臂平臺(tái)，自由度與運(yùn)動(dòng)模式與 DROID 截然不同。

關(guān)鍵結(jié)果：無(wú)需修改模型架構(gòu)，僅替換 URDF 并重新渲染掩碼，BridgeV2W 就能無(wú)縫適配，并取得媲美單臂的預(yù)測(cè)質(zhì)量，這是邁向通用具身世界模型的重要一步。

打通視頻生成與機(jī)器人世界模型，BridgeV2W 讓機(jī)器人學(xué)會(huì)

下游任務(wù)應(yīng)用：從"想象"到"行動(dòng)"

BridgeV2W不僅僅是一個(gè)"能生成好看視頻"的模型，研究團(tuán)隊(duì)進(jìn)一步在真實(shí)世界的下游任務(wù)中驗(yàn)證了其實(shí)用價(jià)值：

策略評(píng)估：在世界模型中“試跑”不同策略，無(wú)需真實(shí)機(jī)器人反復(fù)試錯(cuò)。實(shí)驗(yàn)顯示，BridgeV2W 的評(píng)估結(jié)果與真實(shí)成功率高度相關(guān)，大幅降低策略迭代成本。

目標(biāo)圖像操作規(guī)劃：給定一張目標(biāo)圖像（如“把杯子放到盤子上”），BridgeV2W 能在“想象空間”中搜索出可行動(dòng)作序列，實(shí)現(xiàn)從視覺目標(biāo)到物理動(dòng)作的閉環(huán)規(guī)劃。

關(guān)鍵亮點(diǎn)：海量無(wú)標(biāo)注人類視頻，全都能用！

你可能會(huì)問：具身掩碼不是需要 URDF 和相機(jī)參數(shù)嗎？沒有這些幾何信息的數(shù)據(jù)怎么辦？

BridgeV2W 的巧妙之處在于：

? 推理時(shí)需輕量幾何信息（URDF + 相機(jī)參數(shù)）渲染“計(jì)算掩碼”，用于精準(zhǔn)控制；

? 訓(xùn)練時(shí)卻無(wú)需任何標(biāo)定：只需分割模型（如 SAM）提取的“分割掩碼”，即可提供有效監(jiān)督。

團(tuán)隊(duì)將 AgiBot-G1 機(jī)器人數(shù)據(jù)與無(wú)標(biāo)定的 Ego4D FHO（第一人稱手部操作視頻）混合訓(xùn)練，僅用 SAM 提取的手部掩碼，就實(shí)現(xiàn)了驚人效果：

? 僅用分割掩碼訓(xùn)練，模型仍能學(xué)到合理的運(yùn)動(dòng)規(guī)律；

? 加入大量 Ego4D 視頻 + 少量機(jī)器人標(biāo)定數(shù)據(jù)，性能幾乎媲美全量標(biāo)定訓(xùn)練。

打通視頻生成與機(jī)器人世界模型，BridgeV2W 讓機(jī)器人學(xué)會(huì) 這說(shuō)明：人類視頻蘊(yùn)含豐富的動(dòng)作先驗(yàn)，只需少量機(jī)器人數(shù)據(jù)，就能完成“具身對(duì)齊”。

一句話總結(jié)：訓(xùn)練靠“野生”視頻擴(kuò)規(guī)模，部署靠輕量幾何保精度：BridgeV2W 兼得可擴(kuò)展性與準(zhǔn)確性。

BridgeV2W揭示了一條極具前景的技術(shù)路線：

視頻生成模型 + 具身掩碼 = 可擴(kuò)展的機(jī)器人世界模型

這條路線有三個(gè)關(guān)鍵優(yōu)勢(shì)值得深思：

1、數(shù)據(jù)飛輪真正啟動(dòng)：互聯(lián)網(wǎng)視頻規(guī)模遠(yuǎn)超機(jī)器人數(shù)據(jù)數(shù)個(gè)數(shù)量級(jí)。BridgeV2W 無(wú)需幾何先驗(yàn)即可利用人類視頻，為構(gòu)建“機(jī)器人數(shù)據(jù)飛輪”邁出關(guān)鍵一步。
2、技術(shù)紅利自動(dòng)繼承：視頻生成領(lǐng)域正高速迭代（Sora、Wan、CogVideoX……）。BridgeV2W 的架構(gòu)使其能自然受益于底座模型升級(jí)，底座越強(qiáng)，“預(yù)演”越真。
3、通用智能的堅(jiān)實(shí)基石：從單臂到雙臂，從已知場(chǎng)景到未知視角，BridgeV2W 展現(xiàn)出的跨平臺(tái)、跨場(chǎng)景、跨視角泛化能力，是邁向通用具身智能的重要里程碑。

總結(jié)與展望

BridgeV2W 通過(guò)“具身掩碼”這一簡(jiǎn)潔而優(yōu)雅的中間表征，成功架起了從大規(guī)模視頻生成模型到實(shí)用具身世界模型的橋梁。它不僅解決了動(dòng)作-像素對(duì)齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn)，更關(guān)鍵的是：訓(xùn)練無(wú)需 URDF 或相機(jī)標(biāo)定，可直接利用海量無(wú)標(biāo)注人類視頻，為世界模型的規(guī)模化訓(xùn)練開辟了全新路徑。

目前展現(xiàn)的能力，或許只是冰山一角。

試想未來(lái)：當(dāng)視頻生成底座從十億參數(shù)邁向千億，當(dāng)訓(xùn)練數(shù)據(jù)從數(shù)千小時(shí)機(jī)器人視頻擴(kuò)展到百萬(wàn)小時(shí)人類操作視頻，當(dāng)具身掩碼從機(jī)械臂延伸至全身人形、乃至多機(jī)協(xié)作，機(jī)器人的“預(yù)演能力”將迎來(lái)怎樣的飛躍？

正如 DreamZero 等工作預(yù)示的“機(jī)器人 GPT 時(shí)刻”，BridgeV2W 從另一個(gè)維度證明：

讓機(jī)器人借助視頻生成模型“預(yù)演”自身行動(dòng)的后果——這條路，不僅走得通，而且可以走得很遠(yuǎn)。

論文標(biāo)題：BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

論文鏈接：https://arxiv.org/pdf/2602.03793

項(xiàng)目鏈接：https://bridgev2w.github.io/

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

雷鋒專欄

編輯

雷鋒專欄賬號(hào)，關(guān)注技術(shù)科普&行業(yè)深度分析！

發(fā)私信

當(dāng)月熱門文章