騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

本文作者：齊鋮湧

2025-12-31 15:44

導(dǎo)語(yǔ)：我們正在努力創(chuàng)建一個(gè)具備三維感知能力的視頻世界模型。

作者丨齊鋮湧

編輯丨馬曉寧

世界模型的研究尚處于起步階段，共識(shí)尚未形成，有關(guān)該領(lǐng)域的研究形成了無(wú)數(shù)支流，過(guò)去一年多，Sora為代表的視頻生成模型，成為繼大語(yǔ)言模型（LLM）后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講，當(dāng)下火爆的視頻生成模型，是一種世界模型，其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的，模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式（比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等）。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對(duì)新銳。

在剛剛結(jié)束的 GAIR 2025，騰訊ARC Lab高級(jí)研究員胡文博，在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng)帶來(lái)了非常有見(jiàn)解的演講：《邁向三維感知的視頻世界模型》（Towards 3D-aware Video World Models ）。

以下是具體內(nèi)容，AI科技評(píng)論做了不改變?cè)獾木庉嫼驼怼?/p>

感謝邀請(qǐng)和介紹，我今天分享的題目是《邁向三維感知的視頻世界模型》（Towards 3D-aware Video World Models）。

之所以講這個(gè)，是因?yàn)镾ora在2024年初出來(lái)時(shí)，給大家?guī)?lái)很大震撼。比如它生成的視頻，雖然看起來(lái)是二維的，但已經(jīng)具備一定的3D一致性。不過(guò)從我們做三維重建的角度看，比如嘗試把它重建出來(lái)，會(huì)發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。

騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

基于這個(gè)觀察，領(lǐng)域內(nèi)認(rèn)為視頻擴(kuò)散模型有潛力作為世界模型的一種表示方式，但視頻本身仍是二維的，而我們的世界是三維的。

所以我們思考：如何實(shí)現(xiàn)一個(gè)具備三維感知能力的視頻世界模型？

為了實(shí)現(xiàn)這種三維感知，我們主要做了兩方面工作，今天重點(diǎn)講第二方面。

第一方面是如何從二維觀測(cè)中重建三維信息，這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過(guò)程中，使二維空間的視頻擴(kuò)散模型具備三維感知特性。

我先簡(jiǎn)單介紹一下第一方面的工作：如何在開(kāi)放世界環(huán)境中，從二維視頻中重建三維信息。

我們做了一系列工作，例如video depth (DepthCrafter)（2024年10月掛在arXiv上，現(xiàn)在效果可能已經(jīng)不是最新的了）。

除了video depth (DepthCrafter)，我們進(jìn)一步思考：既然video depth還是2.5維的信息，能否直接從視頻中估計(jì)點(diǎn)云。這就是GeometryCrafter，有了點(diǎn)云，我們就能做類似4D重建的任務(wù)，把各幀融合到同一坐標(biāo)系中。

再進(jìn)一步，我們還估計(jì)了運(yùn)動(dòng)信息，這部分我們最新的工作叫Holi4D，可以從單目視頻中重建運(yùn)動(dòng)。最后一塊是表面法線估計(jì)NormalCrafter，與前幾項(xiàng)相比，法線包含更多高頻細(xì)節(jié)，因?yàn)樗俏恢玫囊浑A偏導(dǎo)數(shù)?；诜ň€我們可以做重打光、材質(zhì)編輯等任務(wù)。

騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

總的來(lái)說(shuō)，目前從任意開(kāi)放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯(cuò)，我們能得到比較好的三維重建結(jié)果了。

接下來(lái)重點(diǎn)講第二方面：如何將三維信息用在視頻擴(kuò)散過(guò)程中，使模型具備三維感知能力。我們首先探索了靜態(tài)場(chǎng)景下的生成任務(wù)：輸入一張單圖，希望模型能根據(jù)任意指定的相機(jī)位姿，生成對(duì)應(yīng)的觀測(cè)圖像。這樣我們就能像玩游戲一樣，通過(guò)控制相機(jī)，實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的探索。

這個(gè)工作叫ViewCrafter，2024年10月公開(kāi)，后來(lái)被PAMI接收。方法上，我們借助重建能力：給定一張圖，先重建出一個(gè)粗糙的三維點(diǎn)云，形成場(chǎng)景的“骨架”。然后基于這個(gè)點(diǎn)云進(jìn)行漫游渲染，渲染結(jié)果雖然粗糙（可能有空洞），但視角變換關(guān)系非常準(zhǔn)確。（雷峰網(wǎng)）

這些空洞正好由擅長(zhǎng)內(nèi)容生成的視頻擴(kuò)散模型來(lái)填補(bǔ)。我們將渲染的點(diǎn)云作為條件，控制視頻擴(kuò)散過(guò)程，從而生成既逼真又符合指定視角變換的圖像。

更重要的是，生成的新圖像可以反過(guò)來(lái)用于多視角重建，更新點(diǎn)云，從而實(shí)現(xiàn)迭代式、更大范圍的場(chǎng)景探索。這其實(shí)與世界模型中的記憶機(jī)制相關(guān)：三維點(diǎn)云作為一種記憶，通過(guò)新探索內(nèi)容更新點(diǎn)云，再中查詢信息作為條件，支持更遠(yuǎn)的探索。

騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

我們展示一些結(jié)果：左側(cè)是指定的相機(jī)軌跡，右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

效果還不錯(cuò)，不僅支持單圖輸入，也支持稀疏多視圖輸入。從兩張圖出發(fā)的話，探索范圍會(huì)大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型（3D Gaussian Splatting），實(shí)現(xiàn)實(shí)時(shí)渲染。

騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

剛才講的是靜態(tài)場(chǎng)景探索，接下來(lái)是如何對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。

核心思想是：用戶輸入一段單目視頻（它是四維世界的二維投影），模型應(yīng)允許用戶對(duì)其背后的四維世界進(jìn)行探索，即同時(shí)指定相機(jī)位姿和時(shí)間點(diǎn)，生成對(duì)應(yīng)的動(dòng)態(tài)觀測(cè)。

方法延續(xù)之前的思路：核心是如何將重建的三維信息注入生成過(guò)程。輸入是一段視頻，我們通過(guò)視頻重建方法將其提升為三維空間中的動(dòng)態(tài)點(diǎn)云。然后像ViewCrafter一樣，基于指定位姿渲染點(diǎn)云。

不同之處在于，動(dòng)態(tài)探索對(duì)生成質(zhì)量要求更高，因此我們除了注入點(diǎn)云信息外，還將原始視頻（質(zhì)量最高）也作為條件注入擴(kuò)散模型，從而在精準(zhǔn)控制相機(jī)位姿的同時(shí)實(shí)現(xiàn)高質(zhì)量生成。

結(jié)果展示：左側(cè)是原始動(dòng)態(tài)視頻，右側(cè)是依據(jù)新指定相機(jī)位姿生成的動(dòng)態(tài)視頻。例如左上角第一個(gè)例子，甚至可以繞到人物背后觀看，光影反射效果也不錯(cuò)。（雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))）

模型還能實(shí)現(xiàn)“子彈時(shí)間”特效：固定時(shí)間點(diǎn)，旋轉(zhuǎn)相機(jī)。另外也能模擬“Dolly Zoom”特效（電影常用手法：邊推移相機(jī)邊調(diào)整焦距，使主體大小不變而背景變化），我們的模型可以從原始固定相機(jī)視頻出發(fā)，同時(shí)修改相機(jī)內(nèi)參和外參，復(fù)現(xiàn)這種效果。

以上兩個(gè)工作分別實(shí)現(xiàn)了對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景的探索。

對(duì)于世界模型，除了探索，下一步是實(shí)現(xiàn)交互：如何對(duì)場(chǎng)景中多個(gè)物體進(jìn)行交互？這是我們最新工作VerseCrafter（即將公開(kāi)）。

仍從單圖輸入出發(fā)，重建幾何信息，并將可移動(dòng)物體用高斯球標(biāo)注出來(lái)。相機(jī)和物體軌跡可在Blender中編輯：用戶可以交互式設(shè)計(jì)相機(jī)和每個(gè)物體的運(yùn)動(dòng)軌跡。然后，我們的模型能根據(jù)這些交互結(jié)果，生成逼真的觀測(cè)視頻。也就是說(shuō)，相機(jī)和所有物體的運(yùn)動(dòng)都是可交互的。（雷峰網(wǎng)）

實(shí)現(xiàn)方案上，我們構(gòu)建了一個(gè)“4D控制視頻世界模型”：從單圖出發(fā)，基于重建和分割方法，重建出部分三維場(chǎng)景，并標(biāo)注可移動(dòng)物體。這樣就在Blender中得到一個(gè)粗糙的、可交互的三維（或四維）世界。雖然粗糙，但易于交互。交互結(jié)果作為條件，輸入到我們?cè)O(shè)計(jì)的視頻擴(kuò)散模型中，生成最終逼真的觀測(cè)。

這個(gè)方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程，核心基于重建算法和視覺(jué)語(yǔ)言模型（VLM）進(jìn)行標(biāo)注與過(guò)濾。最終我們獲得了約35K個(gè)高質(zhì)量視頻片段的數(shù)據(jù)集。

基于這個(gè)模型，我們可以做很多事情：固定相機(jī)只移動(dòng)物體、固定物體只移動(dòng)相機(jī)、同時(shí)移動(dòng)相機(jī)和物體。我們對(duì)比了現(xiàn)有方案，很多方法只能處理特定類別（如僅限人體），而我們的方法在運(yùn)動(dòng)符合度和生成質(zhì)量上都有不錯(cuò)表現(xiàn)。我們還測(cè)試了多玩家聯(lián)機(jī)探索場(chǎng)景的能力：用兩個(gè)人各自拍攝的照片作為Player A和Player B的視角，讓他們?cè)谕粋€(gè)場(chǎng)景中同時(shí)探索與交互，模型能分別生成各自的視角視頻。

總結(jié)一下，今天主要關(guān)注第二方面——三維感知視頻世界模型，但這部分非常依賴第一方面的開(kāi)放世界三維重建技術(shù)（包括深度、點(diǎn)云、運(yùn)動(dòng)、法線等重建）。

在三維感知視頻世界模型方面，我們實(shí)現(xiàn)了靜態(tài)場(chǎng)景探索模型、動(dòng)態(tài)場(chǎng)景探索模型，以及支持在四維場(chǎng)景中同時(shí)進(jìn)行探索與交互的模型。

這就是今天想和大家分享的內(nèi)容，謝謝。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

齊鋮湧

編輯

發(fā)私信

當(dāng)月熱門文章

騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

騰訊 ARC Lab 胡文博：“如何實(shí)現(xiàn)三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025