圓桌｜世界模型的“前世今生”與終局猜想

本文作者：成妍菁

2026-02-12 15:39

導(dǎo)語(yǔ)：世界大模型是否是AI終局？

至今，科技圈對(duì)“世界模型”仍未給出一個(gè)標(biāo)準(zhǔn)定義。但這不妨礙它成為當(dāng)下最性感的敘事：

在VC眼中，它是驗(yàn)證商業(yè)閉環(huán)的終極沙盤；在具身智能賽道，它是讓機(jī)器人學(xué)會(huì)“走一步看三步”的預(yù)判大腦；而在元宇宙的廢墟之上，它被視為信息載體從2D視頻向3D交互世界躍遷的最后一塊拼圖。

就在1月23日，據(jù)彭博社報(bào)道，李飛飛正在就其創(chuàng)辦的初創(chuàng)公司 World Labs 進(jìn)行新一輪融資洽談，目標(biāo)估值約為 50 億美元。

在這個(gè)概念還未被祛魅的時(shí)刻，中關(guān)村早期投資論壇找到幾位不同背景的先行者。他們不談虛無(wú)的共識(shí)，只求在視角的碰撞中，厘清這波AI新浪潮的真實(shí)商業(yè)脈絡(luò)。

由雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))總編輯林覺(jué)民主持的一場(chǎng)圓桌論壇上，英諾科創(chuàng)基金合伙人王晟、流形空間創(chuàng)始人武偉、VAST創(chuàng)始人宋亞宸以及千訣科技合伙人蔣屹舟齊聚一堂。這場(chǎng)對(duì)話并非為了尋求某種平庸的共識(shí)，而是旨在呈現(xiàn)出一場(chǎng)關(guān)于世界模型討論。

圓桌｜世界模型的“前世今生”與終局猜想

圓桌論壇現(xiàn)場(chǎng)

以下是本次圓桌的深度對(duì)話實(shí)錄：

林覺(jué)民：請(qǐng)各位做一下簡(jiǎn)單的自我介紹。

圓桌｜世界模型的“前世今生”與終局猜想

雷峰網(wǎng)總編輯林覺(jué)民

武偉： Manifold AI（流形空間），去年6月剛成立，專注世界模型，目前主攻具身大腦落地，用在機(jī)械和無(wú)人機(jī)上。

宋亞宸：VAST創(chuàng)始人，做AI 3D大模型，服務(wù)游戲、動(dòng)畫、影視這些需要"造世界"的場(chǎng)景。

蔣屹舟：千訣科技合伙人，今天本來(lái)是師兄（CEO）來(lái)，我們師兄弟三人一起創(chuàng)業(yè)，我臨時(shí)頂包。我們做家居場(chǎng)景的通用機(jī)器人類腦大腦，用類腦技術(shù)做決策和感知。

一、概念定義：從仿真到預(yù)測(cè)

林覺(jué)民：聽說(shuō)這場(chǎng)圓桌本來(lái)是要"干仗"的，主要是目前行業(yè)內(nèi)對(duì)于“世界模型”尚未形成統(tǒng)一的定義，有人要做具身智能的世界模型，有人做數(shù)字空間的，Google Gemini3 又是一派。所以今天我們不凝聚共識(shí)，就各抒己見，百家爭(zhēng)鳴。

王晟（英諾科創(chuàng)基金）：

我們將世界模型視為特定領(lǐng)域內(nèi)逼近“Ground Truth（地面真值）”的模擬系統(tǒng)。

它不一定要在物理上100%復(fù)刻真實(shí)世界，而是要定義一個(gè)“域（World）”，比如醫(yī)療、法律或具身智能領(lǐng)域。在這個(gè)域中，模型能夠模擬出符合客觀規(guī)律的反饋。以醫(yī)療為例，如果模型能準(zhǔn)確模擬出病人服藥后的生理指標(biāo)變化，且無(wú)限接近真實(shí)結(jié)果，它就是該領(lǐng)域的優(yōu)秀世界模型。其核心價(jià)值在于提供準(zhǔn)確的反饋（Reward），強(qiáng)化AI的學(xué)習(xí)效率。

圓桌｜世界模型的“前世今生”與終局猜想

英諾科創(chuàng)基金創(chuàng)始人王晟

武偉（流形空間）：

我們的定義包含兩個(gè)關(guān)鍵詞：模擬與交互。即“用模擬的方式實(shí)現(xiàn)泛化的交互”。

目前行業(yè)內(nèi)主要有三個(gè)流派：1.仿真器派：如英偉達(dá)，主要用于云端合成數(shù)據(jù)，輔助智能體訓(xùn)練；2.通用交互界面派：如Google Gemini、World Labs，打造開放的可交互數(shù)字環(huán)境，偏向娛樂(lè)應(yīng)用；3.具身大腦派（我們所選路線）：讓機(jī)器人具備內(nèi)生的推理和想象能力。不僅是模仿動(dòng)作，而是通過(guò)大腦推演“如果我這樣做，世界會(huì)發(fā)生什么變化”，從而指導(dǎo)實(shí)際操作。

圓桌｜世界模型的“前世今生”與終局猜想

流形空間創(chuàng)始人武偉

林覺(jué)民：Manifold和蔣總都是做“大腦”的，我們現(xiàn)在是哪個(gè)路線，以及為什么要選擇這樣的路線？

武偉（流形空間）：

準(zhǔn)確說(shuō)是foundation model 派 vs 內(nèi)腦架構(gòu)派。我們把世界模型當(dāng)作機(jī)器人原生的 foundation model，建模物理空間移動(dòng)和操作的內(nèi)生認(rèn)知，用一段式或兩段式端到端實(shí)現(xiàn)；千訣則是模擬人腦分區(qū)，用多個(gè)小模型/skills組合來(lái)降低功耗。

這種差異純粹是團(tuán)隊(duì)基因決定的——我們是晟總 PPT 里那批"CV 派+自動(dòng)駕駛派"，我 2015 年加入商湯干了十年，2021-2025 年在中國(guó)最早提出自動(dòng)駕駛端到端和世界模型。這種背景讓我們必須 all in 端到端和數(shù)據(jù)的 scaling，而不是走小模型拼接的路線。

宋亞宸（VAST）：

李飛飛 World Labs 的 BP 里唯一提到的公司就是我們，我還發(fā)給晟總偷看了。她定義世界模型三大場(chǎng)景：3D 生成、XR 空間智能、機(jī)器人——前兩個(gè)才是重點(diǎn)。

Luma（我們老同行，做 AI 3D 轉(zhuǎn)去做世界模型）剛?cè)诹?9 億美金，比李飛飛還多，估值 40 億。這說(shuō)明世界模型確實(shí)是 AI 終局，但分兩層：一層是具身智能讓機(jī)器人替代人類，這層很可怕——作為文科生，要是會(huì)寫小說(shuō)，未來(lái)就是恐怖片。

另一層更重要：勞動(dòng)力被解放后，人最終只能卷創(chuàng)意本身。當(dāng) AI 3D 讓人"造萬(wàn)物"、AI Coding 讓人"定規(guī)則"，每個(gè)人都能零門檻創(chuàng)造虛擬世界——重力可以不是 9.8，你可以飛、可以重寫社會(huì)規(guī)則。這就是馬良的神筆，人人為我、我為人人的"天堂"。

未來(lái)人的價(jià)值，就看你創(chuàng)造的世界里別人愿意花多少時(shí)間。AI 讓人像神一樣創(chuàng)造世界級(jí)體驗(yàn)，這才是世界大模型的終局意義。

圓桌｜世界模型的“前世今生”與終局猜想

VAST創(chuàng)始人宋亞宸

林覺(jué)民：您這就是想造個(gè)"言出法隨"的東西？

宋亞宸（VAST）：必然的！未來(lái)每個(gè)人心想事成、言出法隨，就是馬良的神筆。

林覺(jué)民：快過(guò)年了，這話太應(yīng)景了，不過(guò)宋總確實(shí)站得高，不僅是李飛飛 BP 里唯一提到的公司，他自己也是 MiniMax 早期創(chuàng)始人，剛才直接把世界模型定義成了整個(gè) AI 的終局。

蔣屹舟（千訣科技）：

其實(shí)早年實(shí)驗(yàn)室看世界模型，核心在于"理解世界"而非預(yù)測(cè)——就像牛頓看蘋果落地能推導(dǎo)出萬(wàn)有引力公式，或者AI只讀文字就能畫出世界地圖，這是一種對(duì)物理規(guī)律的底層抽象。

后來(lái)李飛飛帶火了"預(yù)測(cè)世界"，我們起初覺(jué)得"又來(lái)吹牛了"，這不就是十年前強(qiáng)化學(xué)習(xí)里用的"視頻預(yù)測(cè)"換了個(gè)名字嗎？但后來(lái)發(fā)現(xiàn)對(duì)機(jī)器人確實(shí)關(guān)鍵——沒(méi)有理解就無(wú)法外推，比如疊大小不同的衣服，這種細(xì)微差別很難人工建模，必須讓模型具備底層認(rèn)知才能做預(yù)測(cè)。

我們走類腦路線（非端到端的小模型組合），因?yàn)闄C(jī)器人不像GPT可以"思考十分鐘"，人看到機(jī)器人在等待會(huì)很痛苦。所以世界模型對(duì)我們來(lái)說(shuō)是"一步三算、一步十算"，像CPU分支預(yù)測(cè)一樣提前推演各種可能性分支（比如回家打掃時(shí)遇到不同情況該怎么走），現(xiàn)在主要用于決策環(huán)節(jié)，讓機(jī)器人具備真正的實(shí)時(shí)反應(yīng)能力。

圓桌｜世界模型的“前世今生”與終局猜想

千訣科技創(chuàng)始人蔣屹舟

林覺(jué)民：所以蔣總我們其實(shí)已經(jīng)把世界模型用在現(xiàn)實(shí)生活中了是嗎？

蔣屹舟：對(duì)，目前用的更多可能是決策環(huán)節(jié)，因?yàn)槲覀兊臎Q策是能夠一步三算的。

林覺(jué)民：李飛飛吹牛不怕，只要能實(shí)現(xiàn)，這個(gè)東西還是一個(gè)很好的愿景。

二、技術(shù)路線：端到端 VS 類腦架構(gòu)

林覺(jué)民：世界模型路線五花八門，最后拼什么才能跑出來(lái)？

王晟（英諾科創(chuàng)基金）：這個(gè)問(wèn)題挺復(fù)雜的，世界模型現(xiàn)在更多是投資共識(shí)的"標(biāo)簽"——就像之前必須投"具身智能"一樣，現(xiàn)在必須投"基于世界模型的具身智能"，這樣才好交流、好決策。但細(xì)節(jié)層面其實(shí)一團(tuán)亂麻，每家定義都不同，我作為投資人可以接受任何聽起來(lái)合理的定義。

真正決定勝負(fù)的只有一點(diǎn)：你能不能建立一套接近 ground truth 的驗(yàn)證/仿真系統(tǒng)，能源源不斷產(chǎn)出高質(zhì)量數(shù)據(jù)。在 scaling law 的暴力美學(xué)下，數(shù)據(jù)是核心燃料，尤其在具身領(lǐng)域，corner case 數(shù)據(jù)直接決定機(jī)器人會(huì)不會(huì)像自動(dòng)駕駛一樣出事故。這套系統(tǒng)產(chǎn)出的數(shù)據(jù)必須夠 scale、夠真實(shí)（能給你準(zhǔn)確的 reward），同時(shí)分布均衡（稠密和稀疏性平衡），才能訓(xùn)練出既不過(guò)擬合也不稀疏的模型——核心還是歸到數(shù)據(jù)。

林覺(jué)民：武總是做“大腦”的，過(guò)去一個(gè)月發(fā)了兩個(gè)大腦模型，都宣稱自己是世界第一，想請(qǐng)武總聚焦具身大腦領(lǐng)域回答一下。

武偉（流形空間）：

商業(yè)公司活路就兩條：要么 Day 1 有健康現(xiàn)金流，要么燒錢但增長(zhǎng)快、天花板高。世界模型顯然屬于后者，關(guān)鍵看三點(diǎn)：找對(duì)落地場(chǎng)景、增長(zhǎng)夠快、天花板夠高。

我們選具身大腦作為第一個(gè)產(chǎn)品化方向。做個(gè)思維游戲：人從出生到 18 歲，眼睛大概收集 300 萬(wàn) clips；掌握 2000 個(gè)工種，再攢 3 億 clips。人類一輩子能收集的數(shù)據(jù)天花板約 10 億 clips。如果能用 10 億 clips 訓(xùn)出世界模型，達(dá)到人的智能化上限——簡(jiǎn)單任務(wù)零樣本泛化，復(fù)雜任務(wù)幾十個(gè)樣本學(xué)會(huì)——這就是世界模型的終極天花板，商業(yè)價(jià)值極高。

倒推回來(lái)，做世界模型公司怎么 survive？快速收集 10 億高質(zhì)量數(shù)據(jù)、找到能 pre-train 的架構(gòu)、泛化到零樣本/少樣本的應(yīng)用場(chǎng)景——這三件事做到，就能在具身大腦這個(gè)狹窄賽道里跑出來(lái)。

宋亞宸（VAST）：

為什么今天大家都在談?wù)撌澜缒Ｐ停坎⒉皇且驗(yàn)锳I技術(shù)突然成熟了，也不是因?yàn)榫呱碇悄艿搅四硞€(gè)時(shí)間點(diǎn)。根本原因在于，人類的信息載體正在經(jīng)歷一場(chǎng)終極升維。

回顧人類歷史，我們其實(shí)一直在做一件事：對(duì)“真實(shí)世界”進(jìn)行壓縮。

在文字誕生前的史前文明（如良渚文化），人類接觸的是直接的、3D的大自然，那是“原文件”。后來(lái)為了便于傳播，我們不得不將這些3D體驗(yàn)“壓縮”——先是壓縮成文字（龜殼刻字），再是圖片，直到1889年我們發(fā)明了視頻。視頻本質(zhì)上依然是對(duì)3D世界的一種“ZIP壓縮包”。

當(dāng)信息密度越低（如文字），傳播越容易；當(dāng)帶寬和算力提升，我們才開始普及圖片和視頻。而到了AI時(shí)代，基礎(chǔ)設(shè)施終于足以支撐我們解壓這個(gè)“壓縮包”，讓我們重新回到3D和世界本身。

所以，世界模型不是新物種，而是信息載體的“復(fù)原”。我們終于有能力不再處理壓縮后的視頻，而是直接以3D原文件作為媒介。這才是世界模型出現(xiàn)的真正意義。

林覺(jué)民：這個(gè)相當(dāng)于是對(duì)信息的利用效率？

宋亞宸：本質(zhì)是傳播成本決定載體形式——信息密度越低越易傳播，所以龜殼時(shí)代只能刻字，互聯(lián)網(wǎng)時(shí)代能傳圖文視頻。而 3D 或世界本身，才是我們最終的信息載體。

蔣屹舟（千訣科技）：

我們認(rèn)為世界模型不局限于視覺(jué)——盲人操作物體靠的不是看，而是對(duì)物理因果的理解（知道動(dòng)作會(huì)帶來(lái)什么后果，進(jìn)而影響下一步?jīng)Q策）。這種對(duì)因果關(guān)系的把握才是核心。

類腦路線采用非端到端架構(gòu)，最大優(yōu)勢(shì)是不需要暴力堆數(shù)據(jù)。現(xiàn)在 VLA 很頭疼的是必須靠機(jī)械臂瘋狂采集或仿真訓(xùn)練，而我們認(rèn)為可以用人類判斷代替——比如抓取物體，不必讓機(jī)械臂試成千上萬(wàn)次，直接讓人判斷"人會(huì)怎么抓"，把這套理解喂給模型就夠了。

另外，世界模型也不一定要理解整個(gè)自然世界，人類構(gòu)建的抽象世界也算——語(yǔ)言就是人對(duì)世界的最根本抽象，LLM 已經(jīng)證明了這一點(diǎn)。所以只要在任意層面具備對(duì)世界的理解和預(yù)測(cè)能力，就是世界模型。我們的工作會(huì)在各個(gè)模型里融入這種思路，不局限于單一技術(shù)路線。（雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

成妍菁

編輯

發(fā)私信

當(dāng)月熱門文章