大模型不再只是生成：智象未來CTO姚霆談AI如何開始“完成”一個“創作”

本文作者：鄭佳美

2026-03-30 19:22

導語：智象未來全力構建全模態底座：讓 AI 從“生成能力”走向“專業創作”。

過去一年，AI行業一個越來越清晰的變化是，真正拉開差距的，已經不再只是某個模型單項能力是否更強，而是誰能把“能力”組織成“任務”，再把“任務”沉淀為“系統”。

文生圖、圖生視頻、視頻生成、3D生成、動作生成，這些曾經被分別討論的技術模塊，正在被重新放回同一個問題之下：如果未來的模型不只是回答問題、生成內容，而是能夠理解復雜意圖、調動多種能力、完成端到端創作，那么大模型競爭的核心，就會從模型本身，轉向模型、Agent、skills與應用場景之間的整體協同。

也正因此，“世界模型”之爭的真正分野，或許并不只在于誰更接近物理規律、誰更像現實世界的復刻，而在于誰能率先搭建出一套可運行、可調用、可商業化的全模態生產系統。

在這樣的背景下，智象未來聯合創始人兼CTO姚霆對“世界模型”“全模態”“Agent平臺”的理解，提供了一個很有前瞻性的觀察樣本。相比單純討論視頻生成能力的優劣，他更在意的是，模型如何從單點能力躍遷為創作底座，skills如何被高效而安全地管理、編排和組合，應用又如何反過來塑造下一輪模型迭代。

這使得這場對話的意義，已經不只是討論一家AI視頻公司的產品路徑，而是在更深層面上回應一個行業共同面對的問題：當技術紅利從“能不能生成”進入“能不能真正完成任務”的階段之后，下一輪競爭的護城河，究竟會建在模型里，建在系統里，還是建在對未來工作與創作方式智能體的重新定義里。

大模型不再只是生成：智象未來CTO姚霆談AI如何開始“完成”一個“創作” 全球首創文生視頻：智象未來的技術原點與產業積淀

Q：請先介紹一下你們團隊過往的經歷，以及智象未來是怎么走到今天的。
姚霆：智象未來的核心團隊最早來自微軟亞洲研究院，那時候，我們跟著梅濤老師（智象未來創始人），做了全球第一個從文生成視頻的工作研究，算是中國比較早一批做視覺、多媒體、視頻相關研究的人。當時我們做得更偏理解，包括視頻內容理解、動作識別、圖像和視頻搜索等，也做了很多和搜索引擎相關的事情，比如Bing的視頻搜索，以及后來小冰相關的一些項目。那時候也做過一些可以算作生成的工作，比如根據圖像、視頻生成描述，從而驅動用戶和小冰之間的聊天。

后來我們在離開微軟加入京東，在京東平臺上做了很多商業化落地的項目工作。比如大家現在熟悉的京東 APP 首頁的以圖搜圖、拍照購這些應用，背后做的是十億級圖像垂域搜索。我們也做了圖像、視頻審核，包括敏感人物、政治內容、成人內容等識別和處理技術。再往后，也參與了商品3D化、數字商城等相關工作，把商品做成3D資產。后期還研發了與物流分揀相關的機械臂視覺方案，這實際上是具身智能的前身形態：我們在京東物流倉里部署了兩套7×24小時穩態運營系統，訓練機械臂實現商品識別、抓取和tracking等。

到了2022年，看到GPT、ChatGPT，以及Midjourney這樣的圖像生成模型涌現，讓我們這個團隊看到了很大的場景想象空間，這個場景與我們的技術背景和產業實踐高度相關，因此，2023年，梅老師帶著我們一起創立了智象未來，正式投入做自研多模態大模型和相關產品應用。

我們比較早就定下了“1+3+N”的布局。這里的“1”是一個底層全模態世界模型底座，支撐上層的3個智能體出口：第一條是偏專業創作者的視頻創作工具，海外就是vivago，國內的應用叫智小象；第二條是和互動營銷場景的應用；第三條就是和AI影視創作相關。未來還會拓展出更多的智能體應用。

從2023年開始，我們重點做圖像生成；我們也開源了HiDream-I1模型，通過開源去撬動更多聲量，目前，智象未來ARR（年度經常性收入）已達數千萬美金級別。整體來說，我們一路走到今天，既是在堅持模型研發，也是在不斷拓展商業化落地。

超越單項生成能力：全模態架構如何驅動端到端的任務交付

Q：現在大家對世界模型的定義并不統一。在你看來，一個合格的世界模型應該如何定義，它的標準或維度是什么？
姚霆：智象未來對世界模型的理解，首先是承認它的定義確實非常廣，而且不同階段差異很大。早期我覺得大致可以分成三類。第一類是以語言模型為主的世界模型，它更像是高層知識、世界知識的提煉和壓縮，所以它是high level的世界模型。第二類是中層表達學習，例如Yan LeCun做的JEPA，更偏理解，理解之后可能還會做動作預測。第三類則是和我們更相關的底層像素生成，或者說視頻生成模型，這一類我也認為屬于世界模型的一種可能性。

但到了近期，世界模型的定義其實開始慢慢收斂了。我覺得收斂之后大概也可以分成三類。第一類，是在現有視頻生成模型中加入因果關系和物理規律，它本質上還是視頻生成模型，只是因為具備這些能力，所以更接近世界模型。第二類，是根據用戶的指令，比如上下左右，去實時生成相應場景，以視頻形式呈現，像Genie-3這一類。第三類，是最近大家討論很多的World Action Model，它和具身智能更相關，核心是根據用戶輸入同時生成視頻和動作，包括英偉達在內，最近很多工作都和這個方向有關。

從我們自己的角度來看，我們現在雖然還是做視頻生成更多，但也會把它放在世界模型范疇下去理解。我們更關注兩個延伸方向。第一個是模型側，我們認為未來更重要的是用一個神經網絡同時理解和生成文本、圖像、視頻、3D以及動作。也就是說，它一定是端到端的全模態架構，而不是過去那種多模態拼接式方式。它們之間不應該各自獨立編碼，而是統一編碼、統一tokenization。第二個是產品和系統側。最近大家在談Agent，我們會認為Agentic app其實可以理解為一個平臺或載體，這個載體可能是PC，也可能是手機，再乘上一個Harness，也就是對底層skills的管理、適配和組合能力，再加上一組skills。底層也許是OS，也許是OpenClaw，但它會是一種新的戰略形態。

如果真有一個很強大的全模態世界模型，那么用戶的輸入可以是任意模態，單一也可以多個模態同時輸入，下游的skills也可以是各種模態，而中間這個Harness對模態的管理、描述和編排，也應該是全模態的。這樣才能真正端到端地完成用戶想創作的任務。

關于世界模型的標準，我的理解有以下幾個維度。第一個是模型維度，我更看重世界模型的底座一定是全模態的。第二個是效果維度，它當然要支持生成質量、準確度等常規標準。第三個是產品形態維度，我會更在意它是否能通過一個很好的Agentic方式去實現全模態創作需求。

從春晚“合肥七分鐘”到機器人訓練：AI技術創新的更大可能

Q：如果這樣一套世界模型成立，它在具身智能、游戲或者數字孿生領域的實際價值和潛在價值會有多大？
姚霆：以具身智能為例，大家現在討論很多的是視頻模型和具身智能之間的關系。如果今天這個模型真的是全模態模型，那么它既可以作為視頻生成的底座，也可以作為具身智能的底座。它的核心在于，輸入和輸出都不再被限制。假如輸入是動作，輸出既可以是Video，也可以是動作；如果輸入是文本，輸出也可以是Video。這樣的話，整個模型就能夠支持多樣性的輸入和輸出。

如果放到具身場景里，它既可以用來生成數據，也可以支持VLA模型預訓練，甚至當精度達到毫米級別的時候，也可以進一步做后訓練，甚至直接去做VLA或者action production。我覺得這會是一個非常好的基礎。

游戲方向會更加自然。因為一旦你給模型一個動作，它就可以渲染出新的畫面，生成新的場景和視頻，這本質上就是游戲和影視結合的互動影游。互動影游里面大量需求就是，你給它一個新任務，它會繼續延展新的內容和新的可能性，所以不管是作為游戲，還是作為影視呈現，它都很有發展應用的空間。

Q：現在關于AI漫改和影視落地的話題很熱。你們在影視和漫改方面的商業化客戶占比大概如何？從你們接觸的客戶來看，目前AI最有價值的場景是什么？
姚霆：目前，我們還是更注重“創作”這個事情。以前大家談生成，不管是圖像還是視頻，更多是把它當作一種單點能力去看，所以經常會陷入一個問題，就是到底終局是文生視頻更重要，還是圖生視頻更重要。比如Sora更強調文生視頻，早期的可靈則更強調圖生視頻，很多時候大家都在糾結到底誰代表終局。

在我看來，如果把“創作”當作一個完整任務來理解，那么就不應該只盯著底層能力到底是文生還是圖生，而應該看這個系統能不能端到端地把用戶的創作任務完成。如果它能真正完成創作，這才是首要目標。

在影視創作這一塊，我們核心做兩類事情。第一類是協同生產工具。第二類是內容交付。智象的技術交付能力已在國家級舞臺上得到驗證。在 2026 年央視馬年春晚合肥分會場 7 分鐘視頻，虛實融合視覺等呈現由智象大模型提供了 AI 能力支持。此外，我們很早就在AI影視方面布局，如2024年和亦莊合作過AIGC短劇《意向未來》，屬于國內首批AIGC短劇之一。2025年我們又和安徽電視臺合作了一個項目，叫《量子湖傳說》，是12集偏漫劇。在AI漫改和影視落地方面，據不完全統計目前智象未來，已經協助完成超過5000分鐘的AI短劇創作。工業級的 AI 短劇平臺幀贊已經在內測招募中，馬上就要正式上線。

當然，除了創作，另外一個重要領域就是具身智能，具身智能的迭代高度依賴于高質量、多維度的訓練數據。最近，智象未來與具身智能數據基礎設施企業諾亦騰機器人已達成戰略合作，希望共同攻克行業普遍面臨的高精度訓練數據供給難題。雙方將諾亦騰積累的真實運動捕捉數據與智象多模態大模型生成的仿真數據進行深度融合。為具身智能本體廠商提供規模化、標準化的 VLA（視覺-語言-動作）模型預訓練資源。

在巨頭格局下快跑：技術預判、架構創新與資本的認可

Q：現在看，字節和快手既有模型又有流量，獨立創業公司在這種格局下如何避免被邊緣化？你們真正的護城河是什么？
姚霆：這是一個特別好的問題。的確，大廠無論在資本、人才、算力，還是入口級能力上，都有天然優勢。但我也覺得，大廠在某些條件下束縛會更多。因為它要兼顧主營業務、股東預期和估值邏輯，團隊架構通常也會更加龐大，不會像創業公司這樣靈活。

我反而覺得，在今天這個階段做AI，機會并不是完全不平等的。初創公司如果想抓住機會，我覺得至少有幾點要做好。第一，認知一定要新。為什么我一直強調技術和產品迭代，本質上是因為必須對趨勢有預判。不能等到大廠把某種架構做成熟了，我們再去復制，那樣基本不會有機會。

因此，智象未來一直在做架構創新，從2023年Unet開始，到DiT，到后來我們做到擴散自回歸架構Diffusion + Auto-Regressive，今天我們正在做走向全模態的全新架構，我們每次還是精準地踩住了整個 AI技術迭代的突破口，有時候甚至會領先國內國際大廠三個月、六個月。

第二，產品認知也必須持續更新。今天做產品和以前不一樣了。你一只眼要盯著當下正在做的產品，另一只眼一定要看六個月以后產品形態會不會變。比如從去年年底開始，我們招聘產品經理時，已經把會不會用vibe-coding當作考核項，因為這已經成為新的工作方式。整個團隊認知都必須更新。

第三，速度非常關鍵。AI產品只要形成一個基本可用的穩定版本，就應該盡快推向市場。在我的定義里，一個版本如果用戶嘗試兩次能成功一次，或者三次能成功一次，我就認為它已經可以上線。因為生成式產品天然會有幻覺和誤差，所以不能等到它像傳統軟件一樣完全穩定才去發。上線以后，要靠用戶不斷地使用和反饋去迭代，這樣才有可能形成自己的優勢。很多場景其實不是拍腦袋就能想出來的，只有用戶用起來，你才知道真實需求在哪里。

第四，組織架構要非常靈活。今天在初創公司里，技術和產品的邊界已經越來越模糊。很多產品本身也可以通過vibe coding去實現前端。組織不能按舊打法去運轉，而要像打牌一樣，根據對手和市場變化去調整出牌順序、組合方式，甚至要把原本以為是“王炸”的牌拆開來打。

但我覺得最大的好消息是，這個時代變化實在太快，沒人能保證今天做出來的產品三個月后依然有價值。在這樣一個高度內卷、快速演化的環境里，每個人都有機會，而不是只有大廠有機會。

Q：這兩天有個消息是Sora關停了。你先怎么看這件事？另外，國內和海外在AI視頻模型上走法不太一樣，國內更喜歡做完整平臺，海外更偏重模型能力。你覺得哪種路線的壁壘會更長久？
姚霆：從我的角度看，第一，Sora 原來的想法還是做一個非常通用的視頻生成模型，但它和垂直領域應用之間，在目前階段還是相對脫離的。再加上它天然也沒有和自身業務深度耦合的生態，所以發生了現在的大調整。

第二，我覺得成本肯定是很大的原因。今天和互聯網時代不一樣，現在所有服務上線，背后其實都在持續跑大量GPU，燒 Token，成本是非常昂貴的。我們自己在做模型迭代的時候，一個非常重要的考慮因素就是最終推理成本。

這也是智象未來堅持架構創新的原因之一，通過架構創新，如自回歸模型預先理解，DiT 僅需 5 步即可達成傳統百步生成的精細度。我們可以將單位視頻的推理成本大幅壓縮至原來的 1/10。每個版本的迭代，我們都會圍繞推理成本做大量工作，因為如果不在架構階段考慮這些問題，后面服務根本沒法大規模跑起來。

你提到國內外路線的問題，我覺得國外很多團隊對架構創新的信心更高，國內則會更強調商業化應用。對我們來說，架構創新是非常重要的底層能力，因為我們本來就是技術出身。梅老師帶著我和潘博士在微軟的時候，就一直希望做世界上最好的模型。雖然當時做的是理解，但競爭對手就是谷歌、Facebook、CMU、伯克利這些團隊，所以在我們的技術基因里，一直就有很強的模型架構創新追求，我們從來沒有放棄模型上的創新。每次迭代，架構創新始終是第一重要的事情。

Q：公司已經成立快四年了，這些年AI行業發展非常快。現在回頭看，整個行業的競爭格局和你們最初的預想差距大嗎？有哪些地方是超出計劃、和團隊設想不一樣的？
姚霆：我覺得第一，很多事情其實是在預期之內的。比如整個生成賽道、多模態大模型賽道的發展上限和發展速度，基本都在我們的判斷范圍內。從早期的MidJourney，到Sora、Runway、可靈等，一路走下來，整體趨勢沒有偏離預判。包括技術路線，從Unet到DiT，再到自回歸與DiT融合，再到今天做全模態，也都在我們的判斷之內，甚至有些時候我們還會處在相對領先的位置。

但也有一些超出預期的地方，我覺得更多是在產品層面的突破。比如以前大家會討論，我是不是應該做偏寫作的工具，或者做OpenClaw、OPC這樣的東西。最近我們也會反過來思考，像OpenClaw這種模式的發展速度，以及它所代表的可能性，可能比很多人預想得都快。它會給我一些啟發，讓我重新思考今天應該怎樣去做一個創作型Agent。

比如現在大家都知道這類產品有安全問題，但我最近會想，為什么它會有安全問題？一個很核心的原因是，它和我共用一個載體。假設它是我的助理，它其實不應該用我的手機替我發微信，它應該有自己的“手機”，也就是自己的載體。如果它有自己的載體，也許沒有屏幕都沒關系，那么很多安全問題就會發生變化。也就是說，如果給OpenClaw這樣的系統一個適合它生長的新載體，它也許就能從co-worker走向co-creator。這個可能性，是超出我原來預期的。

Q：智象未來2026年最優先級的戰略是什么？經過四年發展，融資也到了新的輪次，投資人對智象未來的發展期待是什么？
姚霆：這是一個很大的問題。我覺得很多場景的爆發其實是帶有隨機性的，爆款本身也有隨機性。但從我的角度看，最優先級的事情非常明確，就是建立一個端到端的創作智能體Agent平臺。

在這個平臺上，我們正在打造多個方向的“創作”智能體，包括個人創作、營銷相關創作，以及影視相關創作。現在的思維模式和過去不太一樣。過去是分而治之，不同創作場景用不同工具；但接下來更可能變成“并而治之”，也就是底座統一，底層由Agent體系承接，上層再針對不同場景去實例化。

它的技術核心，就是一個全模態生成模型作為底座。這很像當年做搜索引擎，你底下有海量網頁，而今天這些網頁變成了skills。關鍵問題變成，怎么在海量skills里找到最需要的信息，并把這些信息組合編排成好的Agent，再提供給上層服務。為什么我們引入“全模態”這個概念，就是因為如果模型天然把文本、圖像、視頻等模態打通了，那我只需要建一套索引，就可以處理所有模態的問題，也才能支持真正的端到端創作。不管用戶輸入什么，想得到什么，系統理論上都能夠完成。

1. 關于融資的問題，我們一直很順利，問題之后會有更多好消息與大家分享。對于定位和估值，我們更看重估值背后的底層邏輯。支撐我們融資順利的核心邏輯有三點：1. 技術的持續領先與創新：不是曇花一現，而是具備長期的創新后勁。2. 產品價值的傳遞：能否真正為用戶創造價值，解決實際問題。3. 商業化驗證：在當前階段，商業化成果是硬指標；而到了未來的C輪、D輪，則會進一步考驗規模化能力。

總的來說，投資人看重的是智象未來在全模態技術上的深度積淀以及在生產力場景中的落地潛力，我們非常珍惜并看重投資人對我們的這種長期認可.

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

鄭佳美

編輯

發私信

當月熱門文章