對話南洋理工大學安波教授：如何讓大語言模型適應動態環境？丨IJAIRR

本文作者：岑大師

2024-07-18 10:09

導語：智能體實現AGI的自我超越，從與環境交互做起。

對人類越是簡單的問題，大語言模型反而越難以做好？

盡管現在的大模型已經有能力沖擊數學競賽級別的題目，但在像“9.11和9.9誰大”這樣的簡單問題上仍然會翻船。而從推特上網友對問題的討論中猜測，出現這種錯誤的原因可能是由于大模型以token的方式來理解文字，當9.11被拆成“9”、“.”和“11”三部分時，11確實比9大。

對話南洋理工大學安波教授：如何讓大語言模型適應動態環境？丨IJAIRR

大語言模型（LLMs）在處理復雜問題時表現出色，但在一些看似簡單的問題上卻可能遇到困難——這種現象并不是因為模型本身的復雜性，而是由于模型與特定環境或任務之間的知識不對齊。此外，LLMs在生成文本時依賴于預測下一個單詞的概率，這種機制可能導致它們生成與人類常識不符的結果。這是因為現有的模型通常側重于語言的統計特性，而不是深入理解人類的價值觀和偏好。

隨著大語言模型的能力不斷增強，人們對其可能帶來的倫理風險和對人類的潛在威脅的擔憂也在增加。LLMs可能會傳播其訓練數據中的有害信息，如偏見、歧視和有害內容。它們還可能泄露訓練數據中的私密和敏感信息，或生成誤導性或虛假信息。隨著這些Agent越來越多地融入我們的日常生活，任何未對齊的行為都可能導致不可預見的后果。

因此，推動大語言模型對齊技術的研究和突破變得尤為重要。這包括開發新的算法和技術，例如通過將強化學習（RL）與大型語言模型（LLMs）結合，這也是當前AI研究的熱門方向之一，這種方法的核心在于通過與環境的交互來不斷學習和調整模型的行為，使其更好地適應人類的直覺和邏輯。

近日，相關論文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》，上線期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。該論文提出了一個名為TWOSOME的框架，旨在通過強化學習（RL）將大型語言模型（LLMs）與具身環境（embodied environments）對齊，以解決決策任務。

與OpenAI等公司使用的基于人類反饋的強化學習（RLHF）技術不同，本論文提出了一個新穎的在線框架TWOSOME，使用RL讓LLMs作為決策代理與環境進行有效交互和對齊，無需預先準備的數據集或對環境的先驗知識。

從實驗結果看，TWOSOME在樣本效率和性能方面顯著優于傳統RL方法PPO和提示調整方法SayCan，這一結果在Overcooked和VirtualHome環境中得到了驗證。此外，TWOSOME還在八個新的未見任務中測試了其泛化能力，發現其能夠成功地將學到的技能轉移到不同的任務中。

“要想實現通用人工智能，就不能僅僅依賴人類標注數據，而是需要智能體自發地和環境進行交互。”在談及強化學習與大語言模型結合研究的意義時，安波教授如是說。

借對該論文的討論，安波教授向雷峰網(公眾號：雷峰網)-AI科技評論分享了對大語言模型部署在動態環境中進行交互的思考，以及該論文的研究過程。

對話南洋理工大學安波教授：如何讓大語言模型適應動態環境？丨IJAIRR

論文鏈接：https://gairdao.com/doi/10.1142/S2972335324500042

論文引用鏈接：https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001

“合法才合理”

雷峰網-AI科技評論：強化學習與大語言模型融合是近一年來的熱門研究領域，您能介紹下這一領域的主要研究方向和進展嗎？

安波：強化學習與大語言模型的結合主要有兩個方向：基于人類反饋的強化學習（RLHF）和傳統強化學習。RLHF通過學習人類偏好來對齊價值觀，已經成為大型語言模型訓練流程中不可或缺的一部分，是目前強化學習與大語言模型結合的最熱門的方向。

傳統強化學習則依賴環境獎勵，讓智能體能夠自發地在和各種環境不斷交互中自主學習策略。目前受限于模型能力和環境的適配性，直接將大語言模型部署在動態環境中進行交互和策略提升的研究較少。TWOSOME框架就是為了試圖填補大語言模型與動態環境直接交互的空白的一次探索。

AI科技評論：您能否介紹TWOSOME框架的設計思想靈感來源？

安波：我們注意到，盡管現在的大語言模型在常規問答中表現出色，但決策任務上卻常常表現不佳。這主要是因為這些模型缺乏與環境的對齊——它們不熟悉環境中的可執行動作，也不了解環境的動態變化，導致其經常給出一些看似合理其實離題甚遠的回答。

與此同時，強化學習因為學習的是環境中的獎勵信號，能夠和環境始終保持對齊，但其挑戰在于如何有效引入先驗知識以輔助探索。因此，我們設計了TWOSOME框架，旨在將強化學習與大型語言模型相結合，利用強化學習幫助模型與環境對齊，同時利用模型的先驗知識提高探索效率。

此外，雖然利用強化學習訓練語言模型以學習人類偏好已經是一個成熟且熱門的研究方向，但讓語言模型直接與環境交互以學習的研究還相對缺乏。本質上人類的偏好和環境的反饋都是一種獎勵信息，用來指引模型更新的方向，所以理論上我們應該能夠對RLHF框架進行修改將大語言模型直接部署到動態環境中，通過在線交互的方式不斷提升大語言模型自身的策略和能力。

AI科技評論：在現有的技術背景下，這項研究解決了哪些關鍵問題？

安波：這項研究主要是解決了如何用強化學習讓大語言模型通過與動態環境交互的方式提升自己能力的問題。這其中又具體細分為：

1）如何讓能力較弱的大語言模型能夠穩定輸出環境中可執行的合法動作；

2）如何利用大語言模型學習到的海量知識指引智能體在環境中高效探索；

3）如何設計一套高效的pipeline讓模型根據環境中的獎勵信號進行參數更新最后找到最優策略。

AI科技評論：OpenAI的InstructGPT同樣也利用了強化學習框架來優化策略，提高語言模型與人類意圖的對齊度問題，TWOSOME在方法論上有何不同？

安波：InstructGPT采用的是RLHF技術，它首先先通過學習人類標注的方式獲取一個獎勵模型（reward model），然后再利用這個模型的獎勵信息去更新語言模型。這個過程通常需要多次迭代，先訓練reward model再更新模型參數。相比之下，TWOSOME更注重讓大模型直接和環境去交互，利用環境中已有的獎勵信號，省去了額外訓練獎勵模型的步驟，使得TWOSOME能夠進行在線訓練。

此外，RLHF主要用于生成任務，其生成的答案更多關注好壞而非對錯。而TWOSOME則需要在環境中實際執行動作，這就要求我們必須確保智能體的動作是合法的。只有先合法，動作才會合理，因此，TWOSOME不是簡單地讓大模型通過問答問題的方式去生成動作，而是通過查詢大模型中有效動作的生成概率，并以此作為智能體的行為策略，從而確保每次交互都是合法的。這種方法提高了智能體與環境互動的有效性和準確性。

更高效、更穩定

AI科技評論：TWOSOME在訓練架構上有哪些創新之處？

安波：傳統RLHF需要同時維護4個模型，包括Reward Model， Actor Model（行為模型，即大模型本身），Critic mode和Reference model，對顯卡顯存要求很高。

TWOMSOME創造性地引入LoRA（低秩適配器）更新凍結的大模型，使其本身來作為行為模型，同時，在大模型的基礎上增加全連接層作為評價模型。這種設計使得行為模型和評價模型的更新互不干擾，提高了訓練的穩定性。更重要的是，整個訓練過程中只需要在顯存中維護一個大模型，顯著提升了內存使用效率，使得我們所有的實驗都可以在一張40GB顯存的A100 GPU上順利完成。

AI科技評論：TWOSOME框架通過直接與環境交互來加速學習和迭代，您能否談談這種方法在實際研究中的應用效果？

安波：TWOSOME框架直接與環境交互并從中學習并不是為了減少對大規模預訓練數據集的依賴，而是在預訓練和指令跟隨訓練的基礎上進一步優化。強化學習往往是在監督學習達到瓶頸之后幫助模型突破上限的方法，很多時候我們并不知道如何完成任務以及如何更加高效地完成任務，這就需要通過強化學習和環境不斷交互的方式去探索去學習，這通常需要比監督學習大2個數量級以上的數據。

TWOSOME的創新之處在于，它結合了大模型的先驗知識，提高了采樣效率，使得模型能夠更快地收斂。這種方法不是一種簡單的效率提升，而是一種突破現有模型性能上限的策略。與傳統的強化學習相比，TWOSOME通過更有效的數據利用，幫助模型在復雜任務中實現更快的學習速度和更好的性能表現。

AI科技評論：TWOSOME框架的效率優勢可能對未來AI研究的方法論和工作流程產生哪些影響？

安波：TWOSOME的框架為眾多計算資源不充分的小型實驗室進行強化學習和大語言模型相結合的研究提供了可能。在此之前，780M的語言模型需要8X A100 80G才能運行試驗進行相關研究。

AI科技評論：能否詳細說明TWOSOME框架中的動作提示規范化方法，以及它如何提升策略的穩定性和魯棒性？

安波：在TWOSOME中，我們通過查詢大模型來確定環境中有效動作的生成概率，并以此作為智能體的行為策略。然而，我們發現直接將動作中每個token的概率連乘起來作為整個動作的概率，會導致一個明顯的問題：動作越長，其聯合概率通常越低。這是因為每個token的概率都小于1，一些合理的長動作可能會被不合理地低估，最后的概率不如一些不合理的短動作。

為了解決這個問題，我們引入了動作提示規范化（Action Prompt Normalization）。最初，我們嘗試了基于token級別的規范化，即利用動作中每個token概率的幾何平均值來計算動作的概率。這種方法雖然緩解了動作長度不一導致的概率失衡問題，但我們發現它可能會過度正則化由多個token組成的單詞。

例如“tomato”由“tom”和“ato ”2個token組成，在當前語境下，ato幾乎是和tom綁定在一起出現的，tom后面幾乎一定是跟著ato，如果將它們視為獨立，會導致整個tomato乃至整個動作的被過度正則化，會錯誤地提高其概率。

對話南洋理工大學安波教授：如何讓大語言模型適應動態環境？丨IJAIRR

（Twosome基于單詞級別的規范化方法）

因此，我們提出了基于單詞級別的規范化方法（Word-level Normalization），這種方法將一個單詞中所有的token的概率連乘，計算單詞層面的幾何平均值，而不是token層面的。這不僅避免了過度正則化的問題，還使得動作提示更加合理。與不進行規范化或僅進行token級別規范化相比，單詞級別規范化在提高策略穩定性和加速收斂方面表現更佳。

“要超越人類就要和環境交互”

AI科技評論：您如何看待TWOSOME框架在處理未見過的任務或環境時的泛化表現？這種能力如何影響模型在現實世界應用的潛力？

安波：傳統強化學習訓練的智能體會過擬合在訓練的任務上，很難擁有泛化能力，與大語言模型的結合賦予其較強的泛化能力同樣令我們驚訝，我們認為這代表TWOSOME具有較好的可拓展性，能夠高效地在各種任務和環境中提升自身的能力。

AI科技評論：考慮到TWOSOME框架的泛化能力，您認為未來可能在哪些新的應用方向或領域得以應用，它如何解決這些領域特有的挑戰？

安波：TWOSOME探索了一種如何讓大語言模型和環境交互不斷提升自身能力的方法，同時也是一種如何為強化學習智能體引入先驗信息幫助探索的一種方法。

我們相信要想實現通用人工智能，僅僅依賴人類標注數據是不夠的，因為那樣最多只能達到與人類相同的水平，要想超過人類水平就需要智能體自發地和環境進行交互，TWOSOME就是在這個方向的一次嘗試和探索，它同時能夠幫助大模型在機器人或者互聯網以及操作系統中和環境交互綜合提升自身的能力，也能夠幫助以往的強化學習智能體在具身智能、AI4Science等方向上更高效地探索，并且有更好的可解釋性。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

岑大師

發私信

當月熱門文章