周伯文：下一代大模型 OS，工具和語言缺一不可丨GAIR 2023

本文作者：溥茜

2023-09-08 20:21

導語：復現人類智能，AI 的下一步是融合語言與工具智能。

作者丨孫溥茜

編輯丨陳彩嫻

編者按：2023 年 8 月14日，第七屆 GAIR 全球人工智能與機器人大會在新加坡烏節大酒店正式開幕。論壇由 GAIR 研究院、雷峰網、世界科技出版社、科特勒咨詢集團聯合主辦。大會共開設 10 個主題論壇，聚焦大模型時代下的AIGC、Infra、生命科學、教育，SaaS、web3、跨境電商等領域的變革創新。此次大會是在大模型技術爆炸時代，國內首個出海的AI頂級論壇，也是中國人工智能影響力的一次跨境溢出。

在第一天的“GPT時代的杰出貢獻者”專場上，周伯文以“復雜場景下的生成式 AI”為題發表了主題演講。周伯文是清華大學講席教授、電子工程系長聘教授，銜遠科技創始人，IEEE/CAAI Fellow 。同時也是前京東集團高級副總裁、技術委員會主席。

他提到，今天 AI 已經體現出掌握人類語言的能力，下一步，如要復現人類智能，周伯文認為 AI 應適配到更加復雜的場景，其中如何系統地學習和使用工具就變得非常重要。

Tools for AI or AI for Tools ？這是一個哲學問題。以 AI 為中心、工具的存在是為了讓 AI 更好；那么以工具為中心、 AI 的存在是為了讓工具更容易被使用。如何抉擇是人類與 AI 誰占主導。人與 AI 的關系走向何方，最終將取決于 AI 技術金字塔尖的引領者對這一問題的博弈思考。

以下為周伯文教授的現場演講內容，雷峰網(公眾號：雷峰網)作了不改變原意的編輯及整理：

網上有個段子說，大模型在吟詩作畫，人在苦哈哈干活。笑話背后反映了一個問題，我們需要考慮一些真實、復雜的場景，讓 AI 去干更苦的事情。

從智力的角度講，我認為人之所以為人，重要一點是因為人會使用工具，會創造工具，并且通過工具來完成各類復雜場景的任務。當然，AI 本身也是人類創造的一種工具。Next big question 是，AI 能否像人一樣，用好工具。

過去的幾十年中，我們終于把人類對于語言的理解能力教會了 AI ，有了今天的 ChatGPT 等大模型。那么下一個問題就是，我們是否能夠將語言和工具結合起來，教給AI。

因為學會了語言和工具的結合，人類走到了今天，AI 能否復現人類智能，我對這個問題的回答是“YES”，因為基于基礎模型的語言與推理能力，我們看到了AI融合語言與工具智能的能力。這之中一定會有非常多挑戰，也需要對這個問題做一些更詳盡的學術定義（to define the problem properly）,在接下來的報告中我將給大家展開。

LLMs可以做很多事情，未來可以把所有工作基于一個 LLM 連接起來，這是一個方向。但是在這個方向之前還缺乏系統的思考，我想給出我們最新的研究和框架性思考，以及三個基礎研究方向。

1
工具的定義

首先，什么是 Tools？

我們缺乏對工具的定義，工具非常多樣，可以分為：一類是確定性工具，像時鐘、計算器、秒表等；一類基于 API 能力的工具，本質上是將一個功能直接函數化；一類是有專長的神經網絡，或者說是其他的Foundation Models，這也是未來 AI 要去使用的工具；還有一類是與物理世界進行交互，像機器人、傳感器等。

另外一種區分方法是從工具的互動角度分，包括能與物理世界互動的工具、把世界抽象成一個圖形界面的GUI工具，和把世界抽象成 API工具，所謂的“軟件正在吞噬世界”。

這些不同方式都定義了人和 AI 要去交互的工具。而最核心的一點是，所有的這些工具及他們的組合，在大模型時代，我們都可以將它看作是Token序列而已。

但這不是什么新鮮事。

在 OpenAI 推出 ChatGPT 之前，還推出過一個非常重要的工作，叫做 WebGPT。問ChatGPT一個足夠復雜的問題，圖片展示的是它生成的答案，這個答案跟 ChatGPT 看到的不太一樣。它不僅是語言模型，逐個字地給出答案，而是不但生成了答案，還給出了內容出處，也就是作為一個 AI 系統，是如何形成的這個答案。這個操作基本上就解決掉了目前看到的知識幻覺的問題，不像 ChatGPT 的答案不能準確給出它的答案從哪里來。

WebGPT 如何做到的呢？其實很簡單，開發出一個集成環境，讓人回答問題。在回答的過程中，讓大模型學會人的搜索動作、鼠標拖拽、上下瀏覽等動作，這個過程中大模型學會的就不只是文字，而是學會了人的行為序列。在這種復雜場景中，大模型學會之后，就可以生成可以理解的回答。

結果很有意思，OpenAI 只標注了 6000 個例子，就可以訓練出非常好的 WebGPT。這種讓大模型學會使用工具的訓練就可以解決現在大語言模型非常不擅長的點，比如時效問題分析，復雜計算等。解決這些復雜問題，只需要大模型學會在合適的時間，好用合適的工具組合，如何學會如何把結果融合在一起，這也就是為什么 AI 的下一步要學會系統性使用工具。

2
集成工具的新一代 AI 框架

我認為 AI 的進一步發展取決于領軍人物怎么看這個事情。AI 如何使用工具有兩種不同的視角。一種視角是以 AI 為中心，另一種視角是 AI 輔助，這兩種代表人對于 AI 和工具的思考。第一個思考是以 AI 為中心，工具是為了讓 AI 回答的更好，AI 自己決定用什么工具。另一種對比思路是世界圍繞工具展開， AI 是為了輔助更好理解人的決策。這兩種不同模式決定開發不同的系統。

在不同的場景也許需要使用不同的觀點來看待這個問題。但是目前的 AI 和工具融合缺少一個完整框架，在學術界中的認知中，一個比較完備的框架由以下四方面組成：控制器、工具集、環境和感知器。

控制器（Controller）的任務是提出一個可執行方案以滿足人提出的要求。控制器負責決定工具的行為序列，怎樣在合適的時間調用合適的工具去理解任務，返回結果，并執行下一步。

工具集（Tool Set）顧名思義，是工具的集合，有不同功能。這個工具集是完全異構異質的，從確定性工具、到API，到其他模型、再到機器人與機械臂等。

進而工具與環境（Environment）進行交互，在環境中操作。

接下來有一個感知器（Percevier），感知器負責感知使用工具后環境發生的變化，接收外部的信號，包括人類的反饋去糾正行為，最后給到控制器一個結果。

用數學語言來表示，可以將其分解成一系列的馬爾科夫決策過程，去求解最佳行為序列。從貝葉斯公式展開，其核心部分取決于兩點：給定了 Feedback（變量1），Histories（變量2），再給 Human Instruction（變量3），去決定在這個時間最好的行動是什么。

這里的行動包括兩個信息：調用什么工具、返回什么信息，將其分解為兩個子問題就是：第一，要基于目標去選擇合適的工具，第二是在選定工具后決定行動。最終的目標則是選擇一系列的行動，最大化這個概率。和 ChatGPT 對比，ChatGPT 是輸出文字序列，由這個框架輸出行為序列。

這個框架核心要解決三個問題：理解用戶的意圖或者任務本身（Intent Understanding）,理解工具庫與工具本身的表征（Tool Understanding），以及要有完整的推理和規劃能力（Planning and Reasoning）

同樣，在這點上也有不同的視角看待這個問題。站在大語言模型研究的視角看，會認為一切都是大語言模型的衍生物，只要去訓練越來越多的大語言模型，問題自然會解決。但是從強化學習的角度看，這只是一個強化學習的過程，語言模型只是一個強有力的架構。但無論如何看待這個問題，都歸根到如何去建立一個更好的基礎模型，不過這個模型和ChatGPT 相比，無論從任務、能力，還是架構，可能都需要完全不同的思考與設計，我認為這是一個非常重大的研究機會。

接下來我來講這三個方面各有什么進展。

3
三大研究方向方向一：意圖理解

意圖理解指的是控制器如何理解人的意圖并接受任務，大語言模型在自然語言理解，推理，情感分析等方面做的非常好。即使對于從未見過的任務，在基礎很強的基礎模型上，通過指令微調也可以很快學會。所以在很大程度上我們認為，這是一個可以解決的問題，只要模型足夠強，有足夠多的高質量指令集，問題就可以解決。

不過也有兩點挑戰，一點是如何理解模糊指令，當用戶的描述非常寬泛時，或者是對同一問題不同用戶有不同表述時，如何準確地理解指令。另一點是如何解決意圖耦合帶來的理論上的無限指令空間。這些地方仍有空間去研究，但已經不是大的問題。

方向二：工具理解

工具理解是一個復雜的任務。舉例來說，如果工具是一系列 API，要教會控制器去使用 API 。比如有一個天氣的API，它只有兩個變量，一個是城市，一個是日期，可以返回的是溫度、風、降雨量等信息，用戶可以問它上海明天的天氣怎么樣，或者倫敦未來兩天會不會下雨，再或者洛杉磯未來一周平均氣溫是多少。要將用戶的意圖轉換成一系列的 API 調用，以完成復雜場景。

挑戰在于，當一系列工具調用和其他如模型、傳感器組合的時候，問題就會變得復雜。目前，這個問題還沒有特別好的解決辦法，例如在ChatGPT中，我們是手動一個個去勾選不同的工具，這是一種啟發式選擇。如何讓模型自動地去選擇工具也是一個重要的問題。

方向三：規劃與推理

但最難的還在于面向復雜場景的規劃推理。

涌現能力大家聽過很多遍，這個詞最早來自于《Science》，一名諾貝爾獎得主 1972 年發布了一篇名為 More Is Different 的文章，標題的三個字指的便是涌現能力。我們把世界知識壓縮在模型里，通過不斷地學習，讓大模型學會語法、語義、簡單的數理分析、翻譯等，這背后是模型等涌現能力。

但是在非常復雜的推理情況下光有涌現能力是遠遠不夠的。

比如如下的兩類任務，在 Type 1 中可見，做情感分析、主題聚類、翻譯，大模型可以做的非常好。但是在 Type 2 中，問大模型“Elon Mask 兩個字母的末位字母拼在一起是什么”，這類需要簡單推理的問題時，大模型沒有回答出來。這說明，在規劃和推理能力方面，具備涌現能力的大模型還有許多路要走。

推理，讓大模型學會工具

使用提升規劃推理能力的一種做法是，通過思維鏈一步步分解任務。將思維鏈與多模態知識推理結合時，就可以做復雜多模態場景下的知識推理。

比如學習小狗識別，當圖片中元素非常多時，如何幫助大模型在復雜場景中實現識別？思維鏈的解決方案是這樣：先識別是否是動物，再看動物是否有皮毛，第三圈定有皮毛的動物和黑色的鼻子，第四是坐在地上。

通過一步一步教導大模型，學會不同的屬性，將思維鏈和多模態結合在一起，可以完成更復雜場景的分析。所以當把 LLM 放在復雜工具里面，它的推理能力如何分析，我們在上述提出的框架里將其分為兩類：靜態規劃和動態推理。

在靜態規劃中，控制器做出的規劃是恒定的，不需要與環境交互。在動態推理中，模型會和環境進行交互，并且給控制器反饋，制定下一步計劃。

靜態規劃舉例

如開電視、關烤箱之類的動作屬于靜態規劃，理解完意圖去執行即可。難點在于如何使用 LLM 生成靜態計劃，以及找到適合的行動并執行它們。

如果讓護理機器人完成給老人刮胡子涂乳液的任務，一個預訓練任務模型（Pre-Trained Masked LLM）就會在所有可選的行為里選擇，每一個 Action 都是模型的 Token，模型選擇最合適的 Action。對機器人來說，第一步是先找到乳液，第二步把乳液放在右手，通過這個過程學會靜態規劃。

更復雜一點，機器人不但要做這個行為，還要對行為的結果產生預期，一個比較有代表性的工作是 ReAct，ReAct 讓大模型以交錯的方式進行 "思考 "和 "行動"。

加入 ReAct 的關鍵改變在于，大模型采取關鍵動作的時候，它會去思考我現在已經做了什么？下一步目標是什么？下一步要怎么做？通過這樣分解成一步一步的思考之后，就有更高的概率選擇合適的動作。做完動作后，又會去思考剛才的動作造成了什么后果，這種反思讓 LLM 接下來的行為更準確。

動態推理舉例

與外在環境進行交互的推理是具身智能非常重要的理論基礎。在這里用一個例子解釋，看下圖左側的人機對話：

人：你可以幫我從桌子上拿瓶喝的嗎？

機器人：OK

LLM 回答 OK 之后，它理解自己要產生一個 Token，這個 Token是一個 Action，Action 的含義是去桌子那邊，當機器人走到桌子邊，LLM 調用了另一個工具——攝像頭，當攝像頭獲得數據并分析后，它發現里邊有可樂、水，還有一個巧克力棒。LLM 開始思考，它收到的任務是“喝”，桌子上有可樂有水，它需要進一步確認消除歧義，于是它繼續主動對話。

機器人：你想喝水還是可樂？

人：可樂。

機器人將“可樂”作為一個輸入，繼續向下采取行動。它的下一個 Action 是拿起可樂，Action 驅動機械臂去做“拿起”的動作，但是第一次失敗了。這是 LLM 繼續反饋，反饋信息：Action 失敗，于是下一個 Action 是再拿一次。

以上這一系列復雜的動作依照我們 LLM 和 Tool 的理念，生成了一系列 Action，Action 和環境互動，每個互動的結果會幫助控制器（Controller）判斷下一步做什么。這些內容聽起來復雜，但還遠遠達不到解決復雜任務的場景。

我認為在未來，要完成復雜場景下的任務需要非常多的子步驟，每個子步驟涉及非常多工具，這個工具來自更大的工具集。人在復雜場景要用到許多工具，這對 LLM 的挑戰就在于，要理解不同工具間的相互作用。

另外，工具不一定按順序執行，會并行執行，產生疊加效應。最后一種是從單機解決問題到多機協作，由多個工具可共同負責一項任務。

4
下一代操作系統

很多人認為 LLM 是未來的操作系統（OS），但我認為，僅僅從語言處理和生成的角度講，它不足以成為未來的 OS。

未來的 OS 應該融合了語言能力的工具平臺。現在的 OS 是在設備上Enable各種APP與功能，而在 LLM 的眼里，無論是 APP、功能還是設備本身，都是工具。LLM 的核心邏輯是理解任務后決定在什么平臺以及什么樣的復雜場景下喚醒什么工具，根據工具的返回結果再采取下一個行為。

所以，未來的 OS 一定是 NextGen OS = a tool-learning platform with a human language interface

Nothing more，nothing less。這也是為什么我們對工具和語言結合十分感興趣的原因，歡迎大家考慮加入我們清華大學電子系協同交互智能中心和我們一起開展這些智能前沿研究，銜遠科技也在招聘多名LLM和多模態算法工程師！謝謝大家！

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

溥茜

編輯

Hi～

發私信

當月熱門文章