0
至今,科技圈對(duì)“世界模型”仍未給出一個(gè)標(biāo)準(zhǔn)定義。但這不妨礙它成為當(dāng)下最性感的敘事:
在VC眼中,它是驗(yàn)證商業(yè)閉環(huán)的終極沙盤;在具身智能賽道,它是讓機(jī)器人學(xué)會(huì)“走一步看三步”的預(yù)判大腦;而在元宇宙的廢墟之上,它被視為信息載體從2D視頻向3D交互世界躍遷的最后一塊拼圖。
就在1月23日,據(jù)彭博社報(bào)道,李飛飛正在就其創(chuàng)辦的初創(chuàng)公司 World Labs 進(jìn)行新一輪融資洽談,目標(biāo)估值約為 50 億美元。
在這個(gè)概念還未被祛魅的時(shí)刻,中關(guān)村早期投資論壇找到幾位不同背景的先行者。他們不談虛無(wú)的共識(shí),只求在視角的碰撞中,厘清這波AI新浪潮的真實(shí)商業(yè)脈絡(luò)。
由雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))總編輯林覺(jué)民主持的一場(chǎng)圓桌論壇上,英諾科創(chuàng)基金合伙人王晟、流形空間創(chuàng)始人武偉、VAST創(chuàng)始人宋亞宸以及千訣科技合伙人蔣屹舟齊聚一堂。這場(chǎng)對(duì)話并非為了尋求某種平庸的共識(shí),而是旨在呈現(xiàn)出一場(chǎng)關(guān)于世界模型討論。

圓桌論壇現(xiàn)場(chǎng)
以下是本次圓桌的深度對(duì)話實(shí)錄:
林覺(jué)民:請(qǐng)各位做一下簡(jiǎn)單的自我介紹。

雷峰網(wǎng)總編輯林覺(jué)民
武偉: Manifold AI(流形空間),去年6月剛成立,專注世界模型,目前主攻具身大腦落地,用在機(jī)械和無(wú)人機(jī)上。
宋亞宸:VAST創(chuàng)始人,做AI 3D大模型,服務(wù)游戲、動(dòng)畫、影視這些需要"造世界"的場(chǎng)景。
蔣屹舟:千訣科技合伙人,今天本來(lái)是師兄(CEO)來(lái),我們師兄弟三人一起創(chuàng)業(yè),我臨時(shí)頂包。我們做家居場(chǎng)景的通用機(jī)器人類腦大腦,用類腦技術(shù)做決策和感知。
一、 概念定義:從仿真到預(yù)測(cè)
林覺(jué)民:聽說(shuō)這場(chǎng)圓桌本來(lái)是要"干仗"的,主要是目前行業(yè)內(nèi)對(duì)于“世界模型”尚未形成統(tǒng)一的定義,有人要做具身智能的世界模型,有人做數(shù)字空間的,Google Gemini3 又是一派。所以今天我們不凝聚共識(shí),就各抒己見,百家爭(zhēng)鳴。
王晟(英諾科創(chuàng)基金):
我們將世界模型視為特定領(lǐng)域內(nèi)逼近“Ground Truth(地面真值)”的模擬系統(tǒng)。
它不一定要在物理上100%復(fù)刻真實(shí)世界,而是要定義一個(gè)“域(World)”,比如醫(yī)療、法律或具身智能領(lǐng)域。在這個(gè)域中,模型能夠模擬出符合客觀規(guī)律的反饋。以醫(yī)療為例,如果模型能準(zhǔn)確模擬出病人服藥后的生理指標(biāo)變化,且無(wú)限接近真實(shí)結(jié)果,它就是該領(lǐng)域的優(yōu)秀世界模型。其核心價(jià)值在于提供準(zhǔn)確的反饋(Reward),強(qiáng)化AI的學(xué)習(xí)效率。

英諾科創(chuàng)基金創(chuàng)始人王晟
武偉(流形空間):
我們的定義包含兩個(gè)關(guān)鍵詞:模擬與交互。即“用模擬的方式實(shí)現(xiàn)泛化的交互”。
目前行業(yè)內(nèi)主要有三個(gè)流派:1.仿真器派: 如英偉達(dá),主要用于云端合成數(shù)據(jù),輔助智能體訓(xùn)練;2.通用交互界面派: 如Google Gemini、World Labs,打造開放的可交互數(shù)字環(huán)境,偏向娛樂(lè)應(yīng)用;3.具身大腦派(我們所選路線): 讓機(jī)器人具備內(nèi)生的推理和想象能力。不僅是模仿動(dòng)作,而是通過(guò)大腦推演“如果我這樣做,世界會(huì)發(fā)生什么變化”,從而指導(dǎo)實(shí)際操作。

流形空間創(chuàng)始人 武偉
林覺(jué)民:Manifold和蔣總都是做“大腦”的,我們現(xiàn)在是哪個(gè)路線,以及為什么要選擇這樣的路線?
武偉(流形空間):
準(zhǔn)確說(shuō)是foundation model 派 vs 內(nèi)腦架構(gòu)派。我們把世界模型當(dāng)作機(jī)器人原生的 foundation model,建模物理空間移動(dòng)和操作的內(nèi)生認(rèn)知,用一段式或兩段式端到端實(shí)現(xiàn);千訣則是模擬人腦分區(qū),用多個(gè)小模型/skills組合來(lái)降低功耗。
這種差異純粹是團(tuán)隊(duì)基因決定的——我們是晟總 PPT 里那批"CV 派+自動(dòng)駕駛派",我 2015 年加入商湯干了十年,2021-2025 年在中國(guó)最早提出自動(dòng)駕駛端到端和世界模型。這種背景讓我們必須 all in 端到端和數(shù)據(jù)的 scaling,而不是走小模型拼接的路線。
宋亞宸(VAST):
李飛飛 World Labs 的 BP 里唯一提到的公司就是我們,我還發(fā)給晟總偷看了。她定義世界模型三大場(chǎng)景:3D 生成、XR 空間智能、機(jī)器人——前兩個(gè)才是重點(diǎn)。
Luma(我們老同行,做 AI 3D 轉(zhuǎn)去做世界模型)剛?cè)诹?9 億美金,比李飛飛還多,估值 40 億。這說(shuō)明世界模型確實(shí)是 AI 終局,但分兩層:一層是具身智能讓機(jī)器人替代人類,這層很可怕——作為文科生,要是會(huì)寫小說(shuō),未來(lái)就是恐怖片。
另一層更重要:勞動(dòng)力被解放后,人最終只能卷創(chuàng)意本身。當(dāng) AI 3D 讓人"造萬(wàn)物"、AI Coding 讓人"定規(guī)則",每個(gè)人都能零門檻創(chuàng)造虛擬世界——重力可以不是 9.8,你可以飛、可以重寫社會(huì)規(guī)則。這就是馬良的神筆,人人為我、我為人人的"天堂"。
未來(lái)人的價(jià)值,就看你創(chuàng)造的世界里別人愿意花多少時(shí)間。AI 讓人像神一樣創(chuàng)造世界級(jí)體驗(yàn),這才是世界大模型的終局意義。

VAST創(chuàng)始人宋亞宸
林覺(jué)民:您這就是想造個(gè)"言出法隨"的東西?
宋亞宸(VAST):必然的!未來(lái)每個(gè)人心想事成、言出法隨,就是馬良的神筆。
林覺(jué)民:快過(guò)年了,這話太應(yīng)景了,不過(guò)宋總確實(shí)站得高,不僅是李飛飛 BP 里唯一提到的公司,他自己也是 MiniMax 早期創(chuàng)始人,剛才直接把世界模型定義成了整個(gè) AI 的終局。
蔣屹舟(千訣科技):
其實(shí)早年實(shí)驗(yàn)室看世界模型,核心在于"理解世界"而非預(yù)測(cè)——就像牛頓看蘋果落地能推導(dǎo)出萬(wàn)有引力公式,或者AI只讀文字就能畫出世界地圖,這是一種對(duì)物理規(guī)律的底層抽象。
后來(lái)李飛飛帶火了"預(yù)測(cè)世界",我們起初覺(jué)得"又來(lái)吹牛了",這不就是十年前強(qiáng)化學(xué)習(xí)里用的"視頻預(yù)測(cè)"換了個(gè)名字嗎?但后來(lái)發(fā)現(xiàn)對(duì)機(jī)器人確實(shí)關(guān)鍵——沒(méi)有理解就無(wú)法外推,比如疊大小不同的衣服,這種細(xì)微差別很難人工建模,必須讓模型具備底層認(rèn)知才能做預(yù)測(cè)。
我們走類腦路線(非端到端的小模型組合),因?yàn)闄C(jī)器人不像GPT可以"思考十分鐘",人看到機(jī)器人在等待會(huì)很痛苦。所以世界模型對(duì)我們來(lái)說(shuō)是"一步三算、一步十算",像CPU分支預(yù)測(cè)一樣提前推演各種可能性分支(比如回家打掃時(shí)遇到不同情況該怎么走),現(xiàn)在主要用于決策環(huán)節(jié),讓機(jī)器人具備真正的實(shí)時(shí)反應(yīng)能力。

千訣科技創(chuàng)始人蔣屹舟
林覺(jué)民:所以蔣總我們其實(shí)已經(jīng)把世界模型用在現(xiàn)實(shí)生活中了是嗎?
蔣屹舟:對(duì),目前用的更多可能是決策環(huán)節(jié),因?yàn)槲覀兊臎Q策是能夠一步三算的。
林覺(jué)民:李飛飛吹牛不怕,只要能實(shí)現(xiàn),這個(gè)東西還是一個(gè)很好的愿景。
二、 技術(shù)路線:端到端 VS 類腦架構(gòu)
林覺(jué)民:世界模型路線五花八門,最后拼什么才能跑出來(lái)?
王晟(英諾科創(chuàng)基金):這個(gè)問(wèn)題挺復(fù)雜的,世界模型現(xiàn)在更多是投資共識(shí)的"標(biāo)簽"——就像之前必須投"具身智能"一樣,現(xiàn)在必須投"基于世界模型的具身智能",這樣才好交流、好決策。但細(xì)節(jié)層面其實(shí)一團(tuán)亂麻,每家定義都不同,我作為投資人可以接受任何聽起來(lái)合理的定義。
真正決定勝負(fù)的只有一點(diǎn):你能不能建立一套接近 ground truth 的驗(yàn)證/仿真系統(tǒng),能源源不斷產(chǎn)出高質(zhì)量數(shù)據(jù)。 在 scaling law 的暴力美學(xué)下,數(shù)據(jù)是核心燃料,尤其在具身領(lǐng)域,corner case 數(shù)據(jù)直接決定機(jī)器人會(huì)不會(huì)像自動(dòng)駕駛一樣出事故。這套系統(tǒng)產(chǎn)出的數(shù)據(jù)必須夠 scale、夠真實(shí)(能給你準(zhǔn)確的 reward),同時(shí)分布均衡(稠密和稀疏性平衡),才能訓(xùn)練出既不過(guò)擬合也不稀疏的模型——核心還是歸到數(shù)據(jù)。
林覺(jué)民:武總是做“大腦”的,過(guò)去一個(gè)月發(fā)了兩個(gè)大腦模型,都宣稱自己是世界第一,想請(qǐng)武總聚焦具身大腦領(lǐng)域回答一下。
武偉(流形空間):
商業(yè)公司活路就兩條:要么 Day 1 有健康現(xiàn)金流,要么燒錢但增長(zhǎng)快、天花板高。世界模型顯然屬于后者,關(guān)鍵看三點(diǎn):找對(duì)落地場(chǎng)景、增長(zhǎng)夠快、天花板夠高。
我們選具身大腦作為第一個(gè)產(chǎn)品化方向。做個(gè)思維游戲:人從出生到 18 歲,眼睛大概收集 300 萬(wàn) clips;掌握 2000 個(gè)工種,再攢 3 億 clips。人類一輩子能收集的數(shù)據(jù)天花板約 10 億 clips。 如果能用 10 億 clips 訓(xùn)出世界模型,達(dá)到人的智能化上限——簡(jiǎn)單任務(wù)零樣本泛化,復(fù)雜任務(wù)幾十個(gè)樣本學(xué)會(huì)——這就是世界模型的終極天花板,商業(yè)價(jià)值極高。
倒推回來(lái),做世界模型公司怎么 survive?快速收集 10 億高質(zhì)量數(shù)據(jù)、找到能 pre-train 的架構(gòu)、泛化到零樣本/少樣本的應(yīng)用場(chǎng)景——這三件事做到,就能在具身大腦這個(gè)狹窄賽道里跑出來(lái)。
宋亞宸(VAST):
為什么今天大家都在談?wù)撌澜缒P停坎⒉皇且驗(yàn)锳I技術(shù)突然成熟了,也不是因?yàn)榫呱碇悄艿搅四硞€(gè)時(shí)間點(diǎn)。根本原因在于,人類的信息載體正在經(jīng)歷一場(chǎng)終極升維。
回顧人類歷史,我們其實(shí)一直在做一件事:對(duì)“真實(shí)世界”進(jìn)行壓縮。
在文字誕生前的史前文明(如良渚文化),人類接觸的是直接的、3D的大自然,那是“原文件”。后來(lái)為了便于傳播,我們不得不將這些3D體驗(yàn)“壓縮”——先是壓縮成文字(龜殼刻字),再是圖片,直到1889年我們發(fā)明了視頻。視頻本質(zhì)上依然是對(duì)3D世界的一種“ZIP壓縮包”。
當(dāng)信息密度越低(如文字),傳播越容易;當(dāng)帶寬和算力提升,我們才開始普及圖片和視頻。而到了AI時(shí)代,基礎(chǔ)設(shè)施終于足以支撐我們解壓這個(gè)“壓縮包”,讓我們重新回到3D和世界本身。
所以,世界模型不是新物種,而是信息載體的“復(fù)原”。我們終于有能力不再處理壓縮后的視頻,而是直接以3D原文件作為媒介。這才是世界模型出現(xiàn)的真正意義。
林覺(jué)民:這個(gè)相當(dāng)于是對(duì)信息的利用效率?
宋亞宸:本質(zhì)是傳播成本決定載體形式——信息密度越低越易傳播,所以龜殼時(shí)代只能刻字,互聯(lián)網(wǎng)時(shí)代能傳圖文視頻。而 3D 或世界本身,才是我們最終的信息載體。
蔣屹舟(千訣科技):
我們認(rèn)為世界模型不局限于視覺(jué)——盲人操作物體靠的不是看,而是對(duì)物理因果的理解(知道動(dòng)作會(huì)帶來(lái)什么后果,進(jìn)而影響下一步?jīng)Q策)。這種對(duì)因果關(guān)系的把握才是核心。
類腦路線采用非端到端架構(gòu),最大優(yōu)勢(shì)是不需要暴力堆數(shù)據(jù)。現(xiàn)在 VLA 很頭疼的是必須靠機(jī)械臂瘋狂采集或仿真訓(xùn)練,而我們認(rèn)為可以用人類判斷代替——比如抓取物體,不必讓機(jī)械臂試成千上萬(wàn)次,直接讓人判斷"人會(huì)怎么抓",把這套理解喂給模型就夠了。
另外,世界模型也不一定要理解整個(gè)自然世界,人類構(gòu)建的抽象世界也算——語(yǔ)言就是人對(duì)世界的最根本抽象,LLM 已經(jīng)證明了這一點(diǎn)。所以只要在任意層面具備對(duì)世界的理解和預(yù)測(cè)能力,就是世界模型。我們的工作會(huì)在各個(gè)模型里融入這種思路,不局限于單一技術(shù)路線。(雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。