萬字實錄：VLA 范式，具身智能的曙光與迷霧丨GAIR Live

本文作者：賴文昕

2025-05-22 14:22

導語：導語：攻堅深水區，VLA 面臨哪些坦途與荊棘？

整理丨賴文昕

編輯丨陳彩嫻

VLA（視覺-語言-動作模型）作為具身智能領域的關鍵新范式，能有效整合視覺信息、語言指令與行動決策，顯著提升機器人對復雜環境的理解和適應能力，對推動機器人從單一任務執行向多樣化場景自主決策的跨越至關重要，已成為當下學術界和工業界炙手可熱的研究焦點。

2025 年 5 月 9 日，雷峰網、AI 科技評論 GAIR Live 品牌舉辦了一場主題為“具身智能之 VLA 的實踐與突破”的線上圓桌沙龍。

圓桌主持人為北京大學計算機學院助理教授、智源學者仉尚航，并邀請了清華大學交叉信息院助理教授、千尋智能聯合創始人高陽，清華大學交叉信息院助理教授、星海圖聯合創始人趙行，與北京大學人工智能研究院助理教授、北大-靈初智能聯合實驗室主任楊耀東一起進行了一場深度的討論。

萬字實錄：VLA 范式，具身智能的曙光與迷霧丨GAIR Live

會上，主持人仉尚航帶領討論 VLA，先是探討其定義、起源及相關模型區別；接著分析技術路線與新成果，探討不同路線的優缺點；隨后圍繞機器人常見任務，剖析核心技術瓶頸與主流輸出范式；還研究強化學習結合、泛化能力提升、異構數據利用與協同訓練；最后關注落地場景，并探討執行長程任務的難點與可能。

其中，三位嘉賓圍繞 VLA 在具身智能中面臨的技術瓶頸分別提出了自己的獨到見解：

高陽認為，推理與數據是當前 VLA 面臨的兩大核心挑戰，推理方面雖已有諸多研究探索 VLA 與推理的結合路徑，但尚未明確最優方案；數據層面，不僅量級遠不及訓練 VLM 的數據，多樣性更是嚴重不足，目前數據多采集于簡單環境，且陷入“數據不足限制模型能力、模型能力有限制約數據采集”的惡性循環，破解數據困境成為 VLA 研究的關鍵所在。

趙行表示，VLA 在實際應用部署中，系統運行頻率單一化存在經濟成本與優化難題，基于哺乳動物動作高頻控制、高層次思維低頻閉環的原理，設計類似人類的高低頻自適應閉環系統仍是未解決的課題，實現端到端訓練以整合多層次、不同頻率的大系統是最終目標。

楊耀東則提出，當前 VLA 訓練存在割裂問題，大腦（VLM）和小腦（底層策略模型）多分開訓練，缺乏端到端訓練及類似人類大小腦的雙向交互，雖有部分研究嘗試探索端到端架構，但聯調困難；同時，VLA 缺乏“測試時計算閉環”，僅能由大模型生成中間信號驅動小模型輸出動作，無法像語言模型通過強化學習在測試時持續計算優化推理能力。要突破這些困境，需借鑒語言模型經驗，采用端到端架構結合強化學習，賦予 VLA 動作空間的閉環推理能力，但面臨工程化落地和數據等難題，若不解決，VLA 難以真正釋放具身智能潛力。

以下是此次圓桌討論的精彩分享，AI 科技評論進行了不改原意的編輯整理：

VLA 的前世

仉尚航：大家好，我是本場圓桌的主持人仉尚航，非常榮幸能邀請到來自清華大學和北京大學、在 VLA 領域非常資深的幾位專家老師。我們今天的主題是關于 VLA 的實踐與突破，首先請各位老師做個自我介紹。

高陽：大家好，我是清華大學交叉信息研究院的助理教授，同時也是千尋智能的聯合創始人，非常高興今天能和大家交流一下 VLA 的相關知識。

楊耀東：非常感謝尚航和雷峰網的邀請，今天來跟大家各位同仁探討一下對 VLA 的思考。我來自北京大學人工智能研究院，現在研究院這邊也和靈初智能一起在探索 VLA 在靈巧操作上的應用。

趙行：大家好，我是清華交叉信息研究院的趙行，我研究機器人和自動駕駛，在這兩方面都做 VLA 的探索，在機器人方面也在星海圖從機器人本體、采數據到訓練 VLA 模型都有全鏈路的經驗，今天也趁這個機會和大家互相交流分享。

仉尚航：我們今天討論的主題是具身智能最火熱的話題之一：VLA。作為熱身，咱們可以先簡單聊聊什么是 VLA 以及大家在探索 VLA 過程中的一些經驗心得，比如應該如何定義 VLA？大家是怎么開始轉到 VLA 這個賽道上面的？VLA 現在這么受關注，大家有什么感受？怎么看待 VLA 的技術路線？

高陽：我認為 VLA 源于大模型的技術變革。我讀博時做自動駕駛，接著是機器人，最初技術棧以計算機視覺、模仿學習和強化學習為主，雖能在單個或少數任務表現良好，但難以實現一個模型做所有任務。隨著 VLM 和 LLM 帶來的變革，出現了將不同任務操作能力整合于一體的視覺-語言-動作大模型新范式，我們組前年起全面投入 VLA 研究。盡管 VLA 是新興領域，但其下的模仿學習、強化學習等技術，與傳統同類技術存在相通之處。

仉尚航：我們看到了高老師發表的 Spirit VLA 等工作，也很受啟發。之前具身智能大會在北京舉辦時，也在論壇上聽到了高老師關于 VLA 的介紹，確實在這方面的研究很有基礎，也期待你未來在 VLA 方向上的更多工作。接下來請耀東老師也介紹一下對 VLA 的定義以及開始研究 VLA 的原因吧。

楊耀東：高老師的闡述很全面了。從大模型視角，ChatGPT 后技術從語言模態逐步拓展到視覺與行為動作空間模態，推動大模型從“缸中之腦”向能與物理世界交互的具身智能體轉變；從行為動作決策控制視角，傳統控制需從簡單的 MPC（模型預測控制）、閉環控制，向具備常識推理與物理接地（physics grounding）能力的通用控制拓展，這恰好契合大模型特性。

兩條發展路徑并行推進，使得機器人與大模型領域學者都紛紛聚焦 VLA。作為具身智能的技術亮點，相比前代技術突破，VLA 憑借大幅提升的智能水平，有望顯著增強機器人在動作決策與行為空間部署上的能力，在未來發展中占據重要地位。

仉尚航：沒錯，正如耀東老師所言，VLA 也是咱們大模型技術和具身智能的一個很好的結合，你過去也做了很多關于大模型對齊的相關工作，正好也可以把它應用到具身智能領域上。也請趙行老師談一談你對于 VLA 的定義、開始的契機以及自己的觀察和感受吧。

趙行：謝謝尚航老師。我對 VLA 的出現有挺大的震撼和感慨的。23 年 3 月 GPT-4 發布前，ChatGPT 等工作都是純語言模型，盡管整個 AI 行業挺受震撼，但對我們做視覺、機器人和自動駕駛的研究者來說，和我們的關系不是太大，而 VLM 即帶視覺的 GPT 的出現就不同了。

我印象非常深刻，GPT-4 發布那晚我們在看它的技術報告，里面展示了很多有意思的視覺理解能力，包括一些理解數學題里圖案的例子。有一個案例是，圖像里路上有臺車，后面有人在燙衣服，GPT-4 能理解場景里的情況，那么很自然的，我們就能想到說，對于在路上看到有人燙衣服這種幾乎不可能見到的長尾問題，可以讓模型幫我們做一系列后續的決策和規劃。我們當晚就著手寫一個 research proposal，要把視覺語言模型用到帶規劃決策的下游應用上，開始做一個基于雙系統 VLM 加上端到端的模型設計。之所以我們先從自動駕駛領域關注到這些，是因為自動駕駛有長尾問題，而長尾問題意味著沒有數據可訓練。沒有數據可訓練，端到端也就無從談起。要解決這種長尾問題，只有通過有理解和推理能力的 VLM 和 VLA 模型。往后看，我覺得未來的機器人或具身智能大領域都會如此。當我們用具身智能機器人解決越來越多的問題，一定會遇到從沒見過的場景，不是靠收集數據就能簡單解決的，模型范式一定會進化到 VLM、VLA 這類范式上，所以自此就比較堅定往這方向探索。

仉尚航：這個觀察非常敏銳，在 VLM 剛出現時就能想到把它應用到自動駕駛領域，確實有很好的 Sense。大家剛剛提到 VLA 模型里面很重要的 VLM 和 LLM 的能力，VLM 也是源自于 LLM，那么大家覺得 LLM 或者語言模態在 VLA 中的作用是什么？

以及我們在做 VLM 時比較容易觀察到的一個局限是，它關于一些細粒度、局部、幾何信息的感知，可能不如傳統純視覺模型那么精準，比如說分割、深度估計、bounding box（邊界框）坐標的感知，但在具身智能領域，我們又非常需要機器人準確地抓取物體，那如何去彌補 VLM 缺失局部空間信息的挑戰呢？

高陽：那我先拋磚引玉一下。首先對于第一個問題，我們人類讓機器人做一件事情要傳達給機器人，傳達的方式其實大多數是語言，L 在這里就起到一個指定任務的作用；V 和 L 之間的對齊也很重要，因為我們在指定任務后，機器人需要能理解當前的場景。語言是“拿一個水杯”，那這個水杯對應的圖片到底在哪個位置？以及很多時候人類的語言描述有些上下文信息是關于圖像的，那么把這兩個模態結合起來，就可以讓這個模型更好地去理解人類的意圖，這些能力其實都依賴于 VLM 的預訓練。

仉尚航：對的，語言模態本身也能帶來很多對機器人有用的額外信息，包括交互指令的接收等，然后可能也可以通過語言和視覺的對齊來增強視覺模態上的泛化性。那關于第二個問題，如何補充缺失的局部信息？不知道趙老師有沒有什么想法？因為趙老師做自動駕駛，也有很多非常需要精準感知的任務。

趙行：我簡單分享下我的經歷。GPT-4V 發布當晚，我就和同學們開始計劃該怎么做。作為做應用的 researcher，從解決問題反推方法，VLA 和 VLM 的價值核心在于填補了具身智能領域此前模型普遍缺乏的常識能力，common sense，比如道路交通規則、人機社交規則等，這些被視覺語言模型包含在內的常識能幫助解決數據覆蓋不到的長尾場景問題。

從實現路徑看，既然 VLM 具備這種潛力，即便其 3D 感知能力有限，也可先與現有成熟的、達到 80-90 分表現的 3D 視覺感知模型結合，通過架構設計取長補短。未來只有 VLM 而沒有其他模型，這也是個比較高概率的結果。長期來看，當前 VLM 預訓練數據缺乏物理世界具身智能數據，未來若能將更多3D幾何、時間等物理常識數據融入訓練，這很可能會發展為一個主流技術的探索方向。

仉尚航：謝謝趙老師的分享。首先我們可以把在 3D 感知上面效果好的模型和 VLM、VLA 結合，其次還可以在數據上面多引入物理規律，對落地和應用也很有啟發。不知道耀東老師這邊還有要補充的嗎？

楊耀東：前面兩位老師已清晰描述了現狀。如今大模型已在語言模型上取得突破，以往是將計算機視覺領域的好模型往語言模型上遷移，現在則是把自然語言處理上好的架構應用到計算機視覺架構中。一方面，Transformer的成功推動了這一轉變；另一方面，人工智能在語言模態上實現了大模型、大數據、大算力的三位一體，產生了Scaling Law。

從哲學角度看，維特根斯坦認為語言認知是世界的邊界，語言能表達所有事物，且語言處于離散空間，在建模上會更容易。然而，如何從語言模態突破到視覺和動作模態仍是挑戰。目前工程上通過拼接，比如將高質量視覺模型、底層動作模型與語言模型結合，能解決部分問題。

但從通用智能體和 AGI 的角度出發，未來需要技術變革，將各模態融合，還是期望有大一統的表征，把所有變量納入其中，但這個維度太高了。若相信所有模態能投影到低流行空間（柏拉圖假設），那將有助于 VLA 和具身智能的大一統，以及實現更強的智能突破。目前 VLA 剛起步，語言和 VLM 有一定突破，拼接思路已現，未來技術革新可能會解決如 3D 信息感知不準確等問題，雖然不知所需時間，但應該不會太久。

VLA 的今生

仉尚航：我們剛才討論了 VLA 的前世，現在來聊聊它的今生，即 VLA 目前有幾種技術路線，以及看看老師們有沒有關于最新進展的一些分享，比如像海外 Physical Intelligence 團隊發布 π 0.5 模型、Figure AI 的 Helix，高陽老師最近發布的 Spirit v1，還有星海圖和 PI 緊密的合作，包括我們團隊最近也和靈初智能在合作。大家作為資深專家，談一談各位對 VLA 技術路線及最新進展的看法吧。

高陽：VLA 多年技術進展集中于架構與數據兩方面。架構上，從谷歌無預訓練的 RT-1 到 RT-2、Sergey Levine 做的 OpenVLA 到 π 0.5，發展依托于 VLM進步。隨著開源 VLM 架構優化與訓練方法革新，相關成果拓展至 VLA，同時 Flow Matching、Diffusion 等技術提升了機器人動作生成能力。

數據層面，從谷歌用 Everyday Robots 采的私有數據集，到 Open X-Embodiment 等開源數據，包括仉尚航老師也做了些很好的數據集工作，國內外機構積極探索，通過新采集、歷史數據處理等方式豐富數據源。此外，π 0.5 并非暴力采大量數據而是轉向互聯網數據，我們千尋智能也嘗試用視頻預訓練。數據質量決定模型上限，這是 VLA 發展最根本、持久的驅動力。

楊耀東：我從模型架構角度再說說，按對 action 的表征方式，VLA 可分為兩大類型：將 action 作為連續動作處理時，需采用 diffusion 類生成式模型（如 π 系列工作），因為自回歸模型主要處理離散 token；若把 action 抽象成語言模型中的 token，則以 Helix 為代表。這兩類模型都依賴 VLM，旨在將語言空間的常識映射到物理空間的 action，我們最近也在寫一個 VLA 總結，探索 action 表征為離散或連續空間的更優方式。

進一步而言，行為動作空間無論是離散還是連續表征，都可類比為人的大小腦（雖此類比有待商榷），其中 VLM 如同大腦負責推理決策規劃，action 的 token 化或 diffusion policy 則類似小腦執行精細化操作，這兩種技術范式不斷發展演變，衍生出眾多變體，但始終圍繞這兩大主流框架。

在訓練方法上，當前 VLA 主要采用監督學習，與兩年前大模型領域類似，依靠百萬級數據集輸入指令以實現跟隨人力指令效果。然而，如何提升 VLA 在測試時的推理能力，充分發揮語言模型的推理優勢，仍是亟待解決的關鍵問題。

趙行：我較關注的切入點是雙系統。剛才提到我們做應用的人更關注到底解決什么問題，說到現在的具身智能都缺常識，而 VLM 解決常識，那就把 VLM 和現有的端到端模型合作以實現一個雙系統。 VLM 是一個推理速度較慢的模型，部署后大概能實現 2-3 赫茲的推理速度，而端到端模型能實現 10-20 赫茲的推理速度，它倆進行某種合作實現雙系統。我們最早在自動駕駛實現并且落地了，這是我們一個挺自豪的成果，接著我們主要關注機器人領域的 VLA 設計，簡單分解為以下幾類。首先是最有代表性的 π 0，我稱之為緊湊的一段式 VLA，即圖像、語言指令作為輸入，直接輸出動作，和端到端模型差不多。Hi Robot 是雙系統設計，由 VLM 拆解高層次指令為原子動作后交給 VLA 執行，模式和自駕的雙系統差不多，VLM 是一個低頻率運作的系統，VLA 是一個高速運作系統。

相似的雙系統工作有 Figure AI 的 Helix 和英偉達的 GROOT N1，但和 PI 稍不同的是他們沒有訓練 VLM，那個 VLM 是從互聯網上拿大家訓練好的開源模型去提取 VLM 的中間特征，把中間特征作為一個額外輸入給一個端到端的 DP（動態規劃）模型，然后讓 DP 模型最后輸出動作，是一種 VLM 不訓練、提取其特征傳給 DP 的設計。π0.5 和 Dex VLA 則以視覺為輸入，中間做個 COT（思維鏈）解釋它為了完成動作所要做的推理和規劃，最后再把動作輸出來，算是一段式的、有中間輸出的 VLA。最近有一個比較有意思的方向是，谷歌提的 embodied reasoning（具身推理），即不那么著急地訓練一個 VLA 模型，因其本身從感知到規劃的能力不是特別強，不如先把具身的推理模型訓練好，當給模型指令時，模型看到圖片能指出應操作圖片里的哪一個物體，如把它從 a 位置放到 b 位置，它的 3D 空間位置是 1.5 米還是 2 米，訓好后再把里面的知識蒸餾給 VLA，連上后面的 action decoder，側重在 VLM 模型本身的能力。

仉尚航：確實是干貨滿滿。你在自動駕駛領域也是很早就開始做雙系統，關于剛才提到的這幾種技術路線，會覺得哪一種更有可能實現或勝任開放世界的更落地或者是 Out Of Lab（脫離實驗室）的任務呢？

趙行：其實這個答案我也不知道，目前 VLA 框架設計仍處于百花齊放的狀態，有緊湊式、中間輸出、兩段式、并聯或串聯等各種組合。但大趨勢是，無論原本做 VLM（從大語言模型出發）還是做機器人（專注 planning model、action model）的團隊，都在做全棧開發。

為提升 VLM 能力，現在會引入動作數據進行聯合訓練，目標是訓練出具身推理模型，甚至是到動作級別的完整模型 VLA。無論是大語言模型公司，還是做具身智能的研究者 / 企業，都在朝這個方向發展。大語言模型陣營會向 VLA 延伸，融合視覺與動作能力；機器人陣營則從解決精細操作的原子任務入手 —— 過去一個 Benchmark 包含 10 個動作就能證明模型能力，現在需要覆蓋 100、200 甚至 500 個 task。在堆積大量任務的過程中，大家發現簡單拼湊任務不可行，需要一個高效的 VLM 編碼器和解碼器來做跨模塊融合。兩股力量正朝著終局的 VLA 共同努力。

仉尚航：現在 VLA 確實是一個百花齊放的狀態，就像人工智能在最早期的符號主義、連接主義也是百花齊放，但隨著研究進程慢慢地收斂。目前像 Gemini Robotics、Nvidia GROOT N1、Hi Robot、Helix 等都在做雙系統也發布了相應的 Demo，也許這種雙系統是在近期可能會更容易讓大家覺得更具有落地或泛化潛力的設計，但未來還不好說。

VLA 包含各種各樣的 Action，對于機器人中現在研究最多的 Manipulation、過去的 Navigation（VLN）和人形機器人相關的 Locomotion 三大任務，各位能否請各位結合自身研究，分享一個您認為該領域最需突破的核心技術瓶頸呢？

高陽：我認為推理是當前一大難點，執行復雜任務時往往需要推理，趙老師、楊老師等學者在 VLA 與推理結合方面也開展了諸多研究，但我覺得哪種路徑最優仍無定論。

另一個核心挑戰是數據。當前數據量級遠不及訓練 VLM 的數據，且多樣性不足更為關鍵。我們采集的數據多來自簡單環境，理論上若有無窮多樣的數據，VLA 難題或可迎刃而解，但現實中存在“數據不足限制模型能力，模型能力有限又導致數據采集困難”的雞生蛋問題。如何破解數據困境，是 VLA 研究的重中之重。

仉尚航：Reasoning（推理）能力和數據這兩點的確是很大的挑戰，要不請耀東老師也分享一下，你所遇到的核心技術瓶頸是什么呢？

楊耀東：我覺得當前 VLA 訓練仍處于割裂狀態，大腦和小腦分開訓練，很少端到端訓的。這不像人類大腦與小腦的雙向交互（小腦執行中的反饋會實時作用于大腦），現有雙系統架構是訓練產物而非生理結構。如何打通端到端訓練是關鍵，若底層策略（如diffusion模型）與上層架構脫節，聯調難度大，雖有清華 RDT、PI 等嘗試探索端到端架構（PI雖是 frozen 的但具備端到端能力），所以打通大小腦是一個比較重要的問題。

另一個問題是，語言模型通過強化學習在測試時（test time）持續計算優化推理能力（輸出行為反哺輸入形成語義閉環），但 VLA 目前僅能讓大模型生成中間信號（embedding/token/condition）驅動小模型輸出動作，缺乏真正的“測試時計算閉環”——動作執行后無法回流至VLM形成迭代優化。

要突破這一點，需借鑒語言模型經驗，用端到端架構結合強化學習，賦予 VLA 在動作空間的閉環推理能力。這一技術方向已被關注，但工程化落地（結合高老師提到的數據難題）仍是 VLA 亟待解決的核心課題，否則它可能只是模塊拼接產物，難以釋放具身智能的真正潛力。第二個問題是，打通訓練后如何通過我們在語言模型上已經看到的、利用強化學習的方法顯著提升其推理能力。現在的 VLA，它所有推理能力都來自于 VLM，但這遠遠不夠，因為我們知道在語言模型推理能力強的大部分原因是因為它能做 test time compute，在測試時間不停地思考，準確度越來越高，所以在語義空間能形成閉環，即輸出的行為能在變成輸入到 VLM 去。但對于 VLA 來講，現在大模型生成一個中間產物，如某種 embedding、token 或 condition，然后到了小模型小腦輸出了一個行為就沒了，這沒辦法 test time compute。真正的 test time compute 是一個視覺或指令輸入，輸出一個 action，這個 action 還得回到 VLA 里去，這樣才能形成閉環，加之以測試時間的算力提升，徹底提升整個行為動作空間的泛化性、準確性和魯棒性等。這背后需要攻克的技術難點是怎么利用端到端架構賦以強化學習訓練的知識和 knowhow，復刻出我們在語言模型上已經取得的成功。這一技術方向已被關注，但工程化落地及高老師提到的數據難題，仍是 VLA 亟待解決的核心課題，否則它可能只是模塊拼接產物，難以徹底釋放智能到具身智能中去。

仉尚航：其實我下一個問題就是關于怎么結合強化學習來提升閉環反饋能力，耀東老師正好先幫我回答了。我們繼續請趙老師談一下你覺得 VLA 的核心瓶頸是什么？

趙行：我剛剛提到的各類 VLA 范式，并聯、串聯、一段式、中間輸出等大多是簡單的線性無環圖，而我們理想中的 VLA 應讓視覺、語言、動作三模態形成閉環，這個耀東老師解釋得已經非常清楚了。

另一個可能的挑戰是，實際應用部署時，我們不希望整個系統以單一頻率運行，這不僅涉及經濟成本，也是系統優化層面的難題。從哺乳動物的角度來看，動作控制需要高頻運行，實現快速感知反饋，而高層次思維閉環的頻率則應更低。從這個第一性原理去思考，應該設計出類似人類的高低頻自適應閉環系統，但至今仍是未被攻克的課題。

仉尚航：你說的高頻率、低頻率，Helix 這個工作是不是這種結合？

趙行：對，我們現在設計出了一種不閉環的架構，比如 Helix 的設計，它的 VLM 是 frozen 的，沒有訓練就是把 feature 拿出來加上一個 action 的 diffusion policy model，是串聯式的，但我覺得可能不是最好的，它需要把動作反饋回來，但一旦反饋回來后，不同頻率的兩個系統如何實現閉環？我覺得這是個比較大的挑戰，那當然希望終局有一個端到端的訓練方式，把這種多層次、不同頻率的一整個大系統都能訓練起來。

RL 之于 VLA

仉尚航：系統級的閉環設計確實是很重要的。剛才耀東也提到和強化學習的結合，那 VLA 已有大量的預訓練，也體現了一定的泛化能力、推理能力。但剛剛提到的 Reasoning 還需要進一步提升，比如和強化學習的結合，也許是一種不錯的思路。先請耀東來補充一下 VLA 和強化學習如何更好地結合？

楊耀東：解決這類問題沒有“一招鮮”的方案。從語言模型推理模型的發展來看，無論是 OpenAI 的 o 系列還是 DeepSeek 的 r 系列，背后都是一套完整的工程 pipeline，不是跑一個 RLHF 或 GRPO 就解決的，涉及冷啟動、迭代蒸餾、數據制造與合成等多個環節。我們在與靈初的實驗室合作中的嘗試雖有初步成果，但確實沒達到終局。

從數據角度看，相比離散空間問題，連續動作空間的研究難度更大。以 AlphaGo 為例，僅靠 3000 多萬條人類動作樣本（約16萬局游戲）就能解決下棋這類離散控制問題；而 Helix 使用 500 小時數據，折算后達 1 億 - 5 億條。離散問題用千萬級數據尚可解決，但連續動作空間，尤其涉及靈巧手操作時，數據的質量和多樣性會嚴重影響 VLA的訓練與強化效果，而當前大部分的 VLA 其實還在做夾爪。

回顧語言模型發展，早期指令跟蹤需百萬級數據，如今幾萬條就能實現不錯效果。數據需求會經歷從“多”到“少而精”的階段，往下發展肯定是 less is more，但這個 less 沒有 more 的階段，是沒法認知里頭的結構的。目前的數據采集多采用監督學習思路，如通過遙操作獲取抓取軌跡，雖能用于冷啟動，有一個不錯的小腦 policy，但和大小腦聯動的強化學習自訓練范式還不是一回事。

好在我們現在有 Issac Gym、Issac Sim 等提供免費合成數據，可以在虛擬環境中大量訓練，結合 sim to real 技術有望緩解數據問題。但如何利用強化學習實現數據自合成、自訓練，尤其是在靈巧手應用場景中，目前研究仍較少，挑戰巨大。

仉尚航：感謝耀東的分享，其中提到的觀點極具啟發性——VLA 與強化學習結合時，數據準備不應遵循自監督訓練框架，而需采用面向自訓練的模式，類似 AlphaGo 之后 AlphaZero 通過自訓練提升棋力的路徑。作為強化學習領域的專家，能否請高老師分享一下兩者如何更好地結合？

高陽：我認為強化學習是 VLA 發展的必由之路。如同大語言模型從預訓練起步，經 GPT-1 到 3.5 逐步開展 SFT 微調、RLHF 微調，VLA 發展大概率也會歷經這三個階段。RLHF 對 VLA 作用與單一語言模型相似，可減少幻覺和動作錯誤。

但目前仍存在許多未解問題。比如在 VLA 的 RLHF 中，如何激發類似 COT 的行為？對機器人來說，怎樣的連續動作序列才符合 COT 標準？這些概念尚無明確定義，我們實驗室正在探索。

將強化學習應用于實體機器人與在仿真器中有著本質區別。在現實物理世界開展強化學習，面臨安全性、數據量等挑戰，亟需深入研究解決。一旦突破這些難題，機器人或能在現實世界實現自主訓練。

仉尚航：就像高老師說的，RL 與 VLA 結合有多種方式，比如在真機上用在線強化學習做下游任務微調，或結合離線 RL 與模仿學習進行 VLA 預訓練。目前這仍處于早期探索階段，思路多樣。趙老師怎么看強化學習與 VLA 的結合？是否有更好的結合方法？

趙行：我來討論一個大家可能沒提及的任務。我們做了很多機器人全身運動的研究，從四足機器狗到雙足人形的運動控制，這個領域強化學習已得到驗證，比如讓機器人跑酷、跳舞、打拳等都能出色完成，這表明強化學習用于訓練 low level 的控制是可行的。

再看上層，一般會用到 VLA 模型，它有更多推理步驟。從未來發展看，強化學習和 VLA 模型必然有融合趨勢，強化學習訓練的模型梯度有機會從控制模型反向傳播到上層 VLA 模型。不過，融合的具體細節還需大家進一步探索。

真實數據、仿真數據還是互聯網數據？

仉尚航：沒錯，這確實是個很有意思的研究方向。不僅 RL 能助力 VLA，VLA 也能反哺 RL，優化運動控制。剛才大家都提到了數據，我正好也準備了相關問題。就像 π 0.5 和許華哲老師報告中展示的數據金字塔，底層是互聯網數據，中層是仿真數據，上層是真機數據，這體現了多源數據訓練的有效性。

我想請教各位老師，VLA 訓練該用真機數據，還是混合數據？若選擇混合，該如何配比？不同訓練階段（預訓練、微調、后訓練）又該如何選擇數據？高老師先談談吧。

高陽：我認為數據的多樣性最為關鍵。我們曾在論文《data scaling law in imitation learning》中提出，數據的絕對數量并非核心，多樣性才是重中之重。基于此，我對仿真數據是比較悲觀的。雖然仿真數據容易大量生成，也能通過域隨機化增加隨機性，但目前沒有仿真器能復刻物理世界的豐富多樣性，無論是物體種類還是交互形式。

因此，仿真數據或許可用于粗糙的預訓練，過往一些抓取類仿真器和數據集在現實應用中也取得過一定效果。不過，除了簡單抓取和局部運動控制，涉及復雜通用操作任務時，仿真器的能力仍遠達不到現實世界的復雜度。所以我認為，豐富的互聯網圖文數據、人類視頻數據以及現實場景采集的遙操數據，才應是 VLA 訓練的主要數據來源。

仉尚航：我在具身智能大會聽到你的報告也專門介紹了如何更好地利用互聯網數據，要不再給大家介紹一下？

高陽：千尋智能投入大量精力探索如何利用互聯網數據優化 VLA 模型，其中代表性工作之一是提出 Any-point Trajectory Modeling（ATM）。我們從互聯網人類活動視頻中提取關鍵點運動信息，讓模型預測這些關鍵點軌跡，以此學習人類行為模式。通過對預訓練后的模型進行微調，其泛化能力顯著提升，尤其在場景適配和物體類型識別方面表現出色。互聯網數據豐富多樣，我們覺得這一方向極具潛力，還有大量數據尚未被充分挖掘和利用。

仉尚航：非常贊同，數據和模型是相輔相成的。若想更好地利用低成本的互聯網數據，對模型設計的要求會更高；而使用高成本的真機數據時，模型設計或許可以更簡單直接。關于數據方面，高老師提到仿真數據因不夠真實，對訓練的幫助有限。想問問另外兩位老師，對于 VLA 的數據，尤其是仿真數據，你們是同意這一觀點，還是有不同的看法呢？

楊耀東：我可以補充一下。首先我也認可互聯網數據的重要性，但它存在信噪比低的問題，就像金融數據，看似豐富卻難以篩選有效信息。互聯網數據雖有人的行為軌跡和操作視頻，但對不同任務場景的適用性差異很大。比如專注夾爪（Gripper）操作研究，互聯網數據幾乎派不上用場，因為視頻中的人類動作難以直接遷移到機械末端執行器，即便遷移到上肢部位，對實際操作幫助也有限。在靈初智能的實踐中發現，若要實現靈巧手的精細化端到端操作，互聯網數據作用不大，反而是外骨骼設備采集的精準數據，對 sim to real 和后訓練 VLA 而言，更能有效提升性能。

這一認知與傳統學術研究觀點不同。通常認為數據多樣性越高越好，論文常展示模型在跨實體、跨任務場景下的表現，但這里存在一個誤區：過多無關數據會稀釋關鍵信息，導致模型策略性能下降。雖然通用人工智能（AGI）需要多元數據融合來提升性能，但畢竟現在通用智能還比較遠，具身智能就更渺小了，而在具體任務的場景里，這些更高維度、更廣域的數據反而是有害的，這是我們在實踐中得出的經驗。

仉尚航：好，耀東這邊關于互聯網數據提出了一些不同的想法，不知道高陽老師有沒有想補充或者討論的？

高陽：我非常同意，其實互聯網上數據我們統計下來可能只有 1% 的數據是有用的，大量數據都是無效的，這就需要大量的數據清洗工作。只有捕捉到人手操作物體，以及物體間交互關系的視頻數據才具備價值。這和大語言模型不同，大語言模型雖也需清洗數據，但即便不清洗，也能訓練出尚可的模型；而互聯網視頻數據必須經過嚴格、大量的清洗，才能用于訓練。

仉尚航：是的，互聯網數據容易獲取，是個大寶庫，但得想辦法挖掘其中有價值的部分。關于 VLA 訓練中互聯網數據和仿真數據這塊，真機數據的價值是毋庸置疑的。趙老師對這方面有什么想法呢？是和剛才老師們觀點相同，還是有不同之處？

趙行：我最初和高陽老師觀點相似，對仿真數據持悲觀態度。因為構建完全真實的仿真環境太難，不僅要視覺真實，還得實現幾何、物理和行為真實，sim to real gap 會巨大。但后來發現，計算機視覺領域的可微分渲染技術（如 3D 高斯 NERF）能縮小這一差距，主要解決物體紋理和幾何真實性問題。

在我看來，仿真數據的作用是放大真實數據。以我們在星海圖的工作為例，通過“real to sim to real”閉環鏈路，先拍攝機器人作業場景視頻，再進行幾何重建、新視角渲染，拆解重組場景完成數據增廣。這不是憑空創造數據，而是基于現有數據拓展。如今視頻生成模型越來越強大，甚至能僅憑一條拍攝數據重建場景，這是個不錯的方向。

不過，這條技術路線非常依賴真實數據，視頻生成模型還無法理解物理幾何規律，不能替代物理仿真器。目前可行的技術路線，是通過半重建、半生成的方式將現實映射到虛擬世界，實現數字孿生和數據放大，再與真實數據聯合訓練。但仿真終究只是輔助，真實世界采集的數據才是關鍵。

仉尚航：是的，我印象深刻。去年8月世界機器人大會，我和高繼揚老師一同參加論壇，當時他興奮地跟我提及星海圖即將發布 Real2Sim2Real（從現實到仿真再到現實）相關成果。正如你所說，若仿真數據足夠真實，其價值會顯著提升，像 3D 高斯這類技術助力重建，讓仿真更逼近現實。

但我一直在思考物理特性模擬的問題。3D 高斯等技術或許能在外觀層面高度還原，可物體的物理規律，諸如重力、摩擦力、紋理觸感，以及材質重量、表面紋理細節等，要實現高度逼真模擬，似乎還有很長的路要走。所以我想請教一下，仿真數據若要更具價值，是必須全方位接近真實，包括這些物理特性，還是僅外觀接近就足夠了呢？

趙行：對，就像剛才提到的 Real2Sim2Real 技術以及聯合訓練，更多是解決泛化性這個寬泛概念里的具體問題。比如在 Sim2Real Gap 中，包含視覺紋理、幾何、物理動力學以及行為等方面的差距，目前這些技術只是盡可能地縮小其中視覺泛化性方面的差距，對于物理和行為交互等方面的泛化性問題，我們還需要一種技術來攻克后面這些Sim2Real Gap。

如何提高泛化性？

仉尚航：好，我們接著 Sim2Real（從仿真到現實）以及泛化性的問題繼續探討。之前我們討論過 VLA 的推理能力，而泛化能力也很重要，各位老師在報告中也常提及。那么，該如何進一步提升現有 VLA 的泛化能力呢？這其中包括跨本體、跨場景、跨任務、跨物體等方面的泛化能力。想請老師們給出一些建議，高老師能否先說說呢？

高陽：我認為就 VLA 的泛化能力而言，最簡單直接的方式是利用大量互聯網的視覺語言數據進行聯合訓練。比如加入各類不同的相關數據進行訓練，還可以引入視頻，并使用輔助的損失函數。

提升泛化能力方面，無論是大語言模型還是視覺語言模型，都沒有算法上的奇跡。主要是通過各種方式生成大量數據，這些數據一部分來自真實世界，一部分是通過仿真方法得到的。當模型接觸到豐富多樣的數據后，就能自然地學會避免神經網絡中的一些捷徑，從而泛化到新的場景。對于 VLA 來說，在這方面也并無太大不同。

楊耀東：我覺得有個角度值得思考，即把 VLA 當作大模型來拓展其泛化能力。從數據、模型架構和訓練角度來看，剛才提到數據要多樣，模型架構可能改變，訓練要增加強化學習、端到端等。在此基礎上，或許需要跳出現有框架思考下一代技術。

比如在大語言模型方面，訓練大模型很困難，而人類的強大在于能不斷在線自適應學習新技能。這對大語言模型意味著測試時的計算、訓練或對齊，即在不動或只動一點權重的前提下，快速適應新結構、任務和物體。這在小腦方面尤其重要，因為人類小腦的可塑性很強，小孩的靈巧操作能力，比如13、14個月大的孩子看幾次示范就能學會擰發條。

目前在純語言大模型上已看到一些好跡象，如 John Schulman 提到，模型訓練到一定程度后，發現俄語中的一個錯誤，他用 20 條對應的英語數據調整后就修復了錯誤。所以我們要追尋一種下一代的范式，即無需大動干戈就能快速學會新能力的方式，也就是研究神經網絡的可塑性，這可能需要算法上的革命，像現在一些 TTT 范式就值得關注。

另外，我們還需突破現有“大腦加小腦”的大模型認知局限，這種認知較為片面武斷，或許是出于商業化或面向大眾、投資人的考慮，便于大家理解“大腦小腦”概念。但人類生理機制復雜，以呼吸和心跳為例，按“大腦小腦”分析本應歸屬小腦，但實際由腦干控制。

目前的 VLA，無論是 Helix 還是 π，都缺失“腦干”這樣的結構。所以，對架構進行創新至關重要，這可能是實現強大泛化能力、推動 VLA 向下一階段規模化發展的關鍵。當然，當下也需做好數據優化、強化訓練、實現具身認知等工作，但要實現真正的泛化，還需付出更多努力。

趙行：我認為未來機器人會像地球生物一樣形態多樣。大概率不需要單一的大腦或 VLA 模型，耀東老師提到的后訓練或 test time training 范式更適合具身智能。機器人各有獨特本體和作業空間，不像自動駕駛車追求通用，比如亞馬遜最近展示的倉庫機器人，用帶觸覺的雙面履帶夾爪，減少對視覺的依賴，特定任務效率更高。

但我們更需要一套完善工具，包含預訓練 checkpoint、后訓練或 test time training 工具，能針對具體場景采集少量數據完成適配，最后去把這個問題給解決到 99.9% 的成功率。我們既要重視預訓練數據采集，也要關注后訓練范式發展，甚至可以在其中融入機器人本體聯合優化，實現策略訓練與本體參數調整同步進行。最終目標是讓各類機器人如同生物多樣性般，在不同場景高效作業。

仉尚航：趙老師提到，提升泛化性不應局限于單一模型，而需要算法、數據與本體設計協同的整體系統或工具。觀察到星海圖與 Physical Intelligence 的合作，他們的論文也涉及用你們的本體及硬件調整，這讓我思考：VLA是否需要特定構型配合？是否并非所有機器人構型都適合 VLA 模型，若想增強其泛化能力，或許需要針對性的構型設計。比如耀東老師提到的靈巧手自由度高，增加了 VLA 實現的復雜度，那是否采用三指夾爪反而更利于完成泛化任務？

總結一下，我想和老師們探討：VLA與本體構型設計存在怎樣的關聯？為了讓 VLA 更準確、更具泛化性，是否需要設計特定構型或構型系列？我們對國內多種機器人做過實驗，發現了這一現象，也希望聽聽各位在產業界有豐富經驗、參與本體設計的老師的看法。

高陽：這個問題很有意思。理論上，VLA 模型和機器人本體沒有必然綁定，不同手臂、手部數量的機器人都能執行任務。但首先要承認，硬件存在固有局限，VLA 無法突破這些物理限制，比如兩只手就操作不了專為人類五指設計的剪刀。

其次，若 VLA 能力足夠強，就能充分發揮每個本體的硬件上限。最后，關于本體數量，我認為未來可能只需少量通用本體。為每個本體單獨匹配 VLA，從商業和構建成本上看都過高。即使人類作為強大的 VLA，切換操作不同本體也需大量練習，其他機器人切換本體同樣會產生高額成本。所以，我傾向于少量通用構型的機器人更可能占據主導，它們能降低硬件、軟件及算法開發的綜合成本，還能勝任各類任務。

千尋在設計本體時，目標是讓機器人能完成世界上90% - 95%的任務，這樣才能覆蓋成本、廣泛應用。我們的機器人采用全身力控設計，各關節靈活，力控功能對于機器人與現實世界交互至關重要，就像學術界常用的 Frank 力控機械臂。為平衡初代產品能力，我們選擇輪式底盤而非雙足形態，因為輪式底盤通過性好、占地小，不易受空間限制，這是我們的底層邏輯。

仉尚航：力控確實非常重要。關于本體構型設計和 VLA 模型的關系，耀東老師有什么想討論的呢？我們其實很關注靈初，最近也多謝耀東老師的支持，陳源培在和我們合作研發關于靈初的手和臂做收銀任務，也預期能在智源大會上一起展示。

楊耀東：我不算典型的具身智能研究者，就是懂些靈巧操作。從 2022 年做雙手靈巧操作的實踐來看，這是個極具挑戰性的問題。一方面，它涉及高自由度控制；另一方面，傳統模仿學習難以解決，互聯網數據也無法直接應用，因此我們從一開始就選擇了強化學習路線。實踐證明，強化學習在雙手配合、操作任務等方面效果顯著，2022 年我們還實現了雙手高速拋接。

這段經歷讓我認識到，很難有通用模型能解決雙手靈巧操作問題，甚至要設計出通用 VLA 來徹底解決雙手操作也非常困難。人的大腦都無法將右手經驗直接應用到左手，在模型參數層面實現技能和軌跡遷移更是難上加難，后訓練成本極高，不如針對特定硬件架構，用垂域數據和訓練方法定制模型。

所以在靈初的研究中，我們沒有采用端到端大一統模型，而是自下而上，基于硬件設計外骨骼采集設備，針對超時打包、掃碼補貨等特定場景采集真人數據訓練。結合 VLM 的常識和物理 grounding 能力，在這些場景中獲得了比傳統機器人更強的泛化能力，具備一定商業化潛力，但距離實現人類 95% 的日常操作仍有很大差距。

從宏觀角度看，如今大家都在討論大模型 Agent。Sam Altman 的說法是，Agent 只要能完成人類 3% 的任務，AGI 就算實現，因為乘上人類的 GDP 是個巨大的數字。但目前具身智能離這個目標還很遠，能完成人類 0.3% 的任務就已十分了不起。這需要產學研深度融合，探索各類應用場景，像高老師、趙老師等眾多科研人員，包括智源開展的 RoboMIND 項目，都非常有意義，若能成功，將為國家乃至人類帶來巨大貢獻。

仉尚航：是的，從數據到模型到硬件本體到系統，其實都需要聯動以及我們多方結合去努力，甚至最終形成一個生態。趙老師有什么可以分享的嗎？

趙行：在這個問題上，我們起初就有深入思考。星海圖最早提出“智能定義本體”，這并不完整，這里的“智能”涵蓋智能模型算法、數據采集難度以及可解決問題的數量。正如高老師所說，能解決 90% - 95% 的任務，這些因素共同決定合適的本體形態。所以第一階段，我們選擇輪式底盤加雙臂夾爪的機器人形態，它便于智能模型控制、數據采集，也能處理不少任務，后續再逐步添加靈巧手等復雜部件。

需要說明的是，我們認為未來機器人生態會豐富多樣。但在 ToC 端，面向家庭消費者，大概率會出現通用人形機器人，因為人形是人類世界的“最大公約數”，能解決更多問題；而在 ToB 端，商業和工業場景中，預計會有幾種主流形態的機器人，針對具體應用場景，通過后訓練、test time training，或本體與任務協同設計，進行手臂加長、輪子加大等細化改造。這就是我們整體的思路。

長程任務與商業落地

仉尚航：最后 20 分鐘有一個我自己非常關注的問題，就是關于長程任務。我們通常用 VLM 拆解長程任務為原子任務，再由 VLA 執行。但 VLA 只能做原子任務嗎？它能否直接完成長程任務？目前相關研究很少，VLA 大多仍在執行短程任務。我想請教大家，VLA 是否有潛力獨立完成長程任務？若有，我們是否該朝此方向探索？如果要實現，該怎么做，才能避免先由 VLM 拆解、再讓 VLA 執行短程任務的模式？

高陽：我認為這并非最關鍵、最急需解決的問題。若 VLA 能完成大量短程任務，那搭配上層任務調度器，就能解決現實中多數問題。屆時，主要挑戰在于調度器與 VLA 的協同。直接用 GPT 等做調度器可能效果欠佳，因其不了解 VLA 的能力邊界，但可通過少量 prompt 使其掌握下層的能力邊界。雖然這種任務拆解方式并非最優，卻足以應對90% - 95%的任務。所以，這個問題有研究價值，但建議先搭建好基礎框架，再深入探索會更有意義。

仉尚航：明白，高老師認為這不是我們特別緊急要解決的第一個優先級，那耀東覺得 VLA 是否需要盡量去解決長程任務？還是也像高老師這樣覺得說其實配合一個大腦模型做拆解就可以了。

楊耀東：我認為這是個很迫切的任務。在組建靈初實驗室時，我邀請了北大專門做推理模型 VLA 的梁一韜老師。從 Nvidia 的話語體系看，第一代具身智能是 Minecraft agent，雖操作鼠標鍵盤的自由度不高，但開放環境下任務復雜。一年多前，通過語言智能體，在 Minecraft 上的 VLA 運用 self reflection（自我反思）、correction（修正）、replanning（重新規劃）等技術，讓其玩三四個小時不犯錯，完成有稀疏獎勵且需使用多種工具的任務已沒問題。

與機器人操作相比，很多機器人操作視頻時長大概 10 到 15 秒。而像超市補貨這類復雜任務，籃子里可能有二三十個物體、幾千個 SKU（庫存保有單位），操作過程遠超 10 到 15 秒，這對現有 VLA 是很大挑戰，若不能自我糾錯和重新規劃，任務成功率會顯著降低。

在和靈初開發大腦和小腦時，VLA 的推理能力優先級很高。最近做了個靈巧手打麻將的 demo，一鏡到底，機械臂不僅要計算出牌，還要考慮各種原子動作，如牌的抓取方式等。僅靠 VLM 或強推理模型，沒有端到端且具備embody COT（具身思維鏈）能力的 VLA 是解決不了問題的。打麻將是這樣，補貨、掃碼打包、物料分揀等場景也都需要這種能力。

仉尚航：就是又回到咱們剛才說的閉環了，要是 VLA 能同時具備記憶、未來預測反饋閉環，進而完成超長任務，確實很有價值。趙老師，你覺得近期的 VLA 研究是否要聚焦于這類長程任務？如果需要，該如何推進？高老師和耀東老師提出了不同思路，你怎么看？

趙行：在我們的研究中，相對更關注動作能力本身。畢竟長程推理較難定義，而語言和視覺的定義相對清晰。我們見過不少視覺語言的 reasoning benchmark，但還沒有視覺語言動作的 benchmark，這就急需學術界共同去定義并形式化這個問題，然后全力研究。

在機器人任務里存在一個大坑。比如做研究時，想讓機器人做咖啡，那為何非要用VLA模型呢？為什么不自己寫個狀態機，訓練一些動作再串聯起來解決問題呢？作為評審時，也會問寫論文的人，為什么要用VLA來解決問題，畢竟現有的狀態機寫100條規則就能處理所有情況。

所以，VLA 領域急缺一個好的推理評價體系，讓我們清楚 VLA 的長程任務是什么，并且在長程任務中，清楚是哪幾步因為推理失敗而失效，而不只是因為動作執行、自適應控制或恢復等能力不足而失敗。目前對于真正的機器人 VLA 推理模型還沒有一個確定的結論，這點很重要。

仉尚航：對，趙老師也分享了我們目前為止沒有討論到的層面，就是如何定義和評測推理能力。

趙行：對，現在大家覺得長程只是時間長，但我們還得從任務的復雜度以及所需的邏輯推理能力的復雜度這些角度來看問題，我覺得會更好。

仉尚航：定義、評價、評測的確重要。目前為止我們已經跟大家討論了關于 VLA 模型的架構設計、數據、訓練策略，包括 RL 等，但還沒討論到的問題就是它的輸出，這也是直播觀眾們比較感興趣的問題。

目前主流的 VLA 輸出范式有四種，分別是自回歸的 Next Action Prediction（OpenVLA，FAST），Diffusion 或者 Flow Match Modeling（Pi0，RDT-1B），和最簡單的基于回歸監督的（RoboMamba，RoboFlamingo），同時利用自回歸和 Diffusion 進行魯棒 Action 輸出（HybridVLA），大家如何看待這幾種輸出范式的發展呢？

高陽：從推理實時性角度看，我認為 Diffusion 和 Flow Matching 不可或缺，否則難以保證實時性。至于預訓練是否采用 Next Token Prediction，這取決于技術發展，特別是能否提升 Flow Matching 和 Diffusion 的訓練速度，這些都有待進一步研究探索。

楊耀東：我們認為 tokenization 至關重要，因為我們希望探索具身思維鏈（embodied COT）和測試時計算（test time compute）的實現方式。若要以此為基礎，無法將動作輸出轉化為模型輸入，就無法進行 test time compute。

因此，我們深入研究了多種 action tokenization 形式，這或許是短期內將大模型成熟技術范式最快遷移到 VLA 訓練中的方法，能快速把大模型的經驗應用到 VLA 上。不過，其中存在諸多工程問題，特別是 tokenization 的形式和表征影響很大，而且最大的弊端是速度問題。

這很考驗工程設計，我們可以通過分塊（chunking）方法規避，也能探索 hybrid 混合方法。目前來看，自回歸形式依然關鍵，因為想賦予模型推理能力，從設計角度，diffusion 這類方法還未顯現出打造強推理模型的明顯趨勢。

仉尚航：那你會認為 Hybrid（混合）的結構可能是近期比較 Promising（有潛力的）的一種方式嗎？

楊耀東：可能是的，我們從靈初這邊發布的 VLA 角度來講，還是做自回歸形式，主要目的是能讓它做 test time compute，這個是我們比較關注的點。

仉尚航：大家關注的這個側重點也不同，趙老師對 VLA 的輸出范式這塊有什么想法呢？

趙行：當下 diffusion model 熱度很高，我對其原理和方法也有不少研究。雖然擴散模型在文生圖、文生視頻領域展現出強大能力，但尚未證明自身在預訓練，尤其是多模態預訓練方面的價值。現有的文生圖或文生視頻模型，大多使用固定的文本編碼器提取特征，將其作為條件進行從噪聲到圖像、視頻的生成，本質上更多是訓練一個較大的解碼器，始終未能證明可用于多模態或跨模態混合預訓練。

反觀下一個token預測（next token prediction）方法，在 VLM 的研究中，許多工作將圖像切分 patch，經線性投影后放入大的 Transformer，用該方法訓練能取得良好效果。由此可見，至少目前來看，next token prediction 在預訓練方面的可靠性更高。因此，我更傾向于認為自回歸方式在當下是更有潛力的研究路線。

仉尚航：好，最后一個問題相信也是大家非常感興趣的具身智能的落地場景。很多投資人、老師們都在討論具身智能第一步能落地的場景是什么？各位老師在產學研結合上做得非常出色，對于產業也有很好的觀察，所以想請問一下大家比較希望具身智能先在哪個場景下面落地？是工業、家庭、醫療還是其他？

高陽：我認為在落地應用方面，工業場景最容易實現。盡管 VLA 前景廣闊，但目前其能力尚處初級階段，現階段適合在需求最迫切的場景落地。

從傳統機器人四大家族的情況來看，工業生產是對機器人需求最旺盛的行業。例如汽車產業鏈，大部分總裝線已實現高度機器人自動化，工業客戶清楚機器人能帶來的價值。相比之下，商業 B 端客戶過去很少使用機器人，不太了解機器人應用的意義和預期效果，較難接受。而且工業場景相對簡單，所以無論是從場景復雜度，還是客戶使用經驗來看，工業場景都是 VLA 最先落地的選擇。

仉尚航：對，我和高陽老師、趙行老師比較相同的點是之前都做過自動駕駛，和車廠本來就有合作，所以對汽車產業也非常關注。那耀東老師覺得哪個落地場景比較 Promising 呢？

楊耀東：這個問題其實比較難，因為我們聚焦靈巧手研發，不涉及人形機器人下半身問題，在靈巧操作領域，類似莫拉維克悖論，看似簡單的任務（如用螺絲槍打螺絲），用靈巧手實現卻很難，從泛化性、準確性等維度看，現有技術都難以完全模擬人類操作，所以工業總裝線上雖有大量人工操作，但機器人替代并非易事，很多東西需要去試。

今年從整個產業上來講，國內目前約 50 - 100 家具身智能公司，去年投資額約 100 億，現階段需要各公司多嘗試不同場景，探尋能提升生產力、產量大、盈利且有 sweet point 的場景，一方面真的能提升生產力，一方面產量又很大，一方面還能掙錢，真能符合這三個圈的并集的技能集，我認為不會很多，不太像是短時間內我們突然能夠海量生產、廣而告之，然后瘋狂往外撲的局面。

從工業及 ToB、ToC 角度分析，工業場景雖適合機器人應用，但工業機器人年產量僅 60 萬臺，產量有限，和預想的差距太大；ToC 領域，人形機器人雖有前景，但實際應用功能不明確，現階段難以落地；還有 ToBC 模式，即機器人賣給B端用于C端服務（如迎賓、倒咖啡），以及文娛類（扭秧歌、閱兵機器人）等新場景或許有發展空間，如同無人機用于煙花表演。當前最大挑戰在于機器人產量少，選擇應用場景時需考量規模和影響力，過小的場景即便能做也缺乏商業價值，這是我的一些思考。

仉尚航：是的，現在還需要耐心，不同公司探索不同場景，大家把整個生態做起來也還是蠻好的，可以不用拘泥于一格。那趙老師對落地場景有什么看法呢？

趙行：每個做具身智能的公司都會深入思考過這個問題，我們的結論是，這一代通用 AI 機器人不應與傳統機器人或設備競爭，而要開辟新賽道。傳統機器人節拍高、精度高，新一代通用 AI 機器人應避開高精度、高節拍任務，主攻精度要求不高但需泛化能力的任務，這類任務在工廠里很常見，比如處理形狀不規則、位置不定甚至柔性物體的低節拍任務，現有技術都可以解決。

然后我們認為更大機會在商業領域。商業場景中的任務同樣對精度和節拍要求不高，而且在這些場景里，機器人不僅能發揮實用作業價值，還能提供情緒價值，大概八成實用價值，兩到三成情緒價值，這樣的場景是很好的切入點。

仉尚航：感謝分享，各位老師在落地實踐與場景探索方面見解深刻。今天交流了所有預設問題，感謝三位老師百忙中傾囊相授，讓我收獲頗豐。相信觀眾通過這場圓桌論壇，在科研、產業及落地應用方面均能有所啟發。平時報告通常僅 30 分鐘，兩小時深度交流尤為珍貴。期待未來看到老師們更多精彩成果，也盼望與各位加強交流、深化合作。今天的交流到此結束，謝謝大家！

更多具身智能故事，歡迎添加雷峰網(公眾號：雷峰網)作者anna042023交流。雷峰網

CMU 具身智能風云榜：從傳統到全面

MIT 具身智能達人志

伯克利具身智能圖譜：深度強化學習浪尖上的中國 90 后們

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

賴文昕

資深編輯

關注具身智能。

發私信

當月熱門文章