對話悟道·文瀾團隊：像人類一樣認識世界，AI需要哪些底層思維？

本文作者：我在思考中

2021-07-26 09:50

導語：僅依靠“煉大模型”仍不足以解決通用人工智能（AGI）的常識問題。

作者 | 琰琰

近幾年，多模態已經成為自然語言處理（NLP）領域的熱點研究方向之一。得益于深度學習的興起，大數據+大模型的雙輪模式推動人工智能實現了跨越式發展。但大量實驗證明，僅依靠“煉大模型”仍不足以解決通用人工智能（AGI）的常識問題。

此外，計算機視覺、自然語言處理、語音識別等技術日益成熟，使“多模態”信息融合的優勢進一步凸顯。去年年初，OpenAI發布多模態大規模預訓練模型CLIP和DALL·E，在語言理解和圖像生成方面刷新SOTA，驗證了多模態在處理NLP任務中潛力。

在國內，北京智源研究院近日發布全球最大規模預訓練語言模型“悟道2.0”，其1.75萬億參數在業內引起不小的震撼。延續GPT-3的“暴力美學”，悟道2.0的效率更高，性能更佳，一舉拿下了9項Benchmark。

其中，以多模態為核心的預訓練模型悟道·文瀾，在語義理解、視覺-語言檢索方面的能力同樣令人驚艷。據官方介紹，文瀾2.0實現7種不同語言的生成和理解，創下多語言預訓練模型的最高記錄，同時，憑借更多的常識儲備，在圖文檢索、圖像問答等任務上達到了世界領先水平。

文瀾的定位是解決多模態之間的語義融合問題。“我們希望創造出世界上最大、性能最佳的通用多模態模型，為各種現實應用場景賦能。”中國人民大學高瓴人工智能學院執行院長、文瀾研發團隊總負責人文繼榮教授告訴AI科技評論。

悟道·文瀾是中國人民大學高瓴人工智能學院與北京智源研究院合作，聯合中科院和清華大學共同開展的大規模預訓練模型研究項目。目前有3位核心負責人、8位科研人員，27位高校學生參加整個項目的統籌與研發工作。

文繼榮教授與同為人大高瓴人工智能學院的宋睿華副教授和盧志武教授為團隊的核心負責人。近日，AI科技評論有幸對話了三位專家，與他們聊了聊文瀾背后的技術與展望。

從左到右依次為：金琴、宋睿華、文繼榮、盧志武

1

仿人類認知思維，多模態加速推進AGI

2021年1月6日，OpenAI同時發布兩大多模態預訓練模型DALL·E和CLIP——前者可基于文本生成圖像，后者能夠完成圖像與文本類別的匹配。殊不知，在人們驚呼自然語言與視覺的次元壁被打破時，在中國同步開發并在多項指標上超過OpenAI的預訓練語言模型——悟道.文瀾已經誕生。

2020年10月，智源研究院與各大科研院所的AI專家們召開內部會議，商討人工智能下一階段的研發方向，其中，研發文本與圖像互通的“多模態”模型以高票數勝出。同月，文瀾項目正式啟動。三個月后，在智源研究院提供算力、數據等資源的支持下，文瀾模型研發成功。

自GPT-3問世之后，國內眾多AI專家已經敏銳地察覺到，OpenAI下一步的目標一定是多模態。類似于大模型，多模態將成為業內下一個熱點研究方向。那么，文瀾的研發初衷只是為了與OpenAI一爭高下，或者在學術界占據高地嗎？

究竟為何要研究多模態，為何要研發文瀾模型？

自然語言處理是人工智能領域的基礎研究，也是實現通用人工智能的關鍵性挑戰，之所以在文瀾中融入多模態，實現文本與圖像的連接，文繼榮教授表示，

多模態不僅要解決NLP的問題。我們認為，多模態更符合人類認知世界的方式。人類通過視覺和聽覺感知物理世界的過程是多模態的，通過模仿這一過程有可能從根本上解決“AI學習智能行為，而非智能本身”的問題。

人工智能的終極目標是：讓機器擁有和人一樣的理解與思考能力。要想達到這一目標，需要無限接近于人類的認知方式。我們生活在一個多模態的交互環境中，聽到的聲音、看到的實物、聞到的味道等，不同的模態信息讓我們更全面和高效地了解周圍的世界。

模態（Modality）是一個廣泛的概念，它代表每一種信息的來源或者形式，上述提到的聽覺、視覺、嗅覺代表不同的模態感知方式；信息的媒介中的語音、視頻、圖像、文字等代表不同的模態數據。

在自然語言理解任務中，融入圖像模態有助于AI像人類一樣學習和理解文本信息，反之亦然。

文繼榮教授舉例說，我們經常用一些抽象的詞語來形容人或物，比如慈祥、俊朗、活力。如果只有純文字，一個呀呀學語的小孩子可能很難理解什么是慈祥，但如果給她看一張老奶奶的圖片，她可能很快就能理解。AI模型就是這樣一個小孩。

更重要的是，有了視覺模態的加持，AI模型還能極大地擴展語義信息、增強圖文理解能力。

據悉，在文瀾1.0版時，研發團隊已經對多模態模型進行了測試，看看它到底比單模態多了哪些信息。下面是兩張測試圖：左邊是用BERT文本預訓練模型得到的結果，右邊是用UNITER多模態預訓練模型得到的結果。

如果輸入“自行車”一詞，通過文本數據訓練的AI，周圍出現了類似于自行車，摩托車，汽車等強相關詞匯。

而利用多模態數據進行訓練的AI，其周圍出現了一些，如“騎”、“男人、女人”、“頭盔”，“停車”一類更豐富的弱相關詞匯，甚至還出現了“on”表示“位于車上”的詞。

這里提到的強相關與弱相關的概念，是文瀾研發團隊首次認識到并明確提出的，也是文瀾2.0取得突破性進展的本質原因之一。

2

“弱相關”關系，文瀾模型的底層思維

多模態從2010年后開始進入Deep Learning階段。

在此期間，業界和學術界推出的多模態預訓練模型不在少數，且多出自國內外頂級科研機構。現階段，主流的多模態NLP模型，除了DALL·E和CLIP外，還有阿里與清華聯合研發的M6、百度研發的ERNIE-ViL等等。

眾多高性能模型中，后來居上的文瀾為何成了世界級“領跑者”？

文瀾模型結構負責人盧志武教授對此介紹了三點，第一，文瀾是首創雙塔結構（Bridging Vision and Language ，BriVL-2）進行預訓練的模型，與傳統單塔相比，BriVL-2在圖像和文本之間建立了一種“弱相關”假設。

如上，給定一張“生日蛋糕”的圖片，強相關模型可能會輸出——生日蛋糕的蠟燭在燃燒，本文內容基本與圖片保持一致，而弱相關則可能輸出——今天的減肥計劃又泡湯了，它嘗試從更高的內涵層次上理解圖像信息。

換言之，弱相關使文瀾模型對文本/圖像信息的理解不僅局限于“等價”關聯，而是進一步擴展到了“場景”關聯、“因果”關聯等。

事實上，多模態之間的語義融合問題一直是人工智能領域一項極具挑戰性的工作。2005年，《Nature》期刊曾發表一篇文章，表明人類對同一實體的圖像和文字兩種模態的認知是在同一神經元上激活的，二者會被映射到同一個空間。

類似地，為了模仿人腦的建模過程，AI模型在預訓練過程中，通常會事先把數據集中的圖像編碼成一個高維向量，當用戶輸入文字時，再將文字向量映射到同一個空間，最后通過向量檢索，獲取相應的圖片。

該過程的關鍵在于，文本和圖像的語義信息是否實現對齊、融合。

文繼榮教授介紹稱，這項任務看似簡單，實則難度極高。而文瀾成功將兩種模態的語義映射到了同一空間，并獲得相同的表達。這項突破性進展，攻克了計算機視覺研究長期以來無法解決的難題。

第二，文瀾2.0所使用的訓練圖文數據集從3000萬升級到了6.5億，且數據全部抓取自互聯網。

據悉，DALL·E采用的是Image數據集，其文本數據多為一些名詞概念，相對固化，而文瀾的6.5億圖文數據來自現實世界，自然而真實。更重要是，文瀾的弱相關性假設，使數據無需標注成為可能。

第三、文瀾支持整個句子的理解，而非關鍵詞。這是它與瀏覽器搜索最顯著的區別。比如，在《布靈的想象世界》中輸入“憂郁的蛋糕”，它會呈現一個以黑色調為背景的蛋糕圖片。宋睿華教授介紹稱，文瀾能夠通過抽象性文字呈現出一種氛圍，而不是僅focus一個關鍵詞。

基于以上核心能力，文瀾已經具備文檢索圖、文生成圖、圖檢索文、圖生成文四種功能。目前研發團隊利用圖檢索文、文檢索圖兩項核心功能開發了應用小程序《AI心情電臺》和《布靈的想象世界》，首次實現了高效的跨模態檢索。

此外，中科院計算所團隊還在文瀾多模態的基礎上開發了應用《只言片語》，考察文瀾模型的語言理解能力與人類玩家的相似度。這個應用包括“默契大考驗”和“看看誰懂我”兩種模式，是首個AI加持的在線桌游，也是一種新模式的圖靈測試。

在游戲的過程中，一名玩家隨機挑選一張圖片，并給出與之相關的文字描述。另一位玩家根據出題人玩家的描述從文瀾給出的干擾項中挑選出正確的圖片。如果兩位玩家的圖片不一致，說明文瀾對文本的精準理解對人類產生了干擾，即通過了圖靈測試。

以往的圖靈測試都是以數據標注的形式進行，過程通常枯燥乏味；“只言片語“采用小游戲的形式，在給玩家帶來樂趣的同時，通過測試模型檢索到的圖片是否能夠迷惑人類，從而評估了圖文匹配模型的能力。

3

逼近圖靈測試，探秘AI“潛意識”

沒有常識的AI，永遠無法實現真正的智能。

2021北京智源大會，宋睿華教授在題為《我們賴以生存的意義和超大規模多模態預訓練》的主旨演講中，提出“僅通過文字，AI很難像人類那樣將語言理解成意義”，她大膽預言：對多模態的研究可能會帶來自然語言理解的重大突破, 多模態將是AI開啟常識之門的鑰匙。

在邁向通用人工智能的路上，常識是AI必須要解決的基本問題。然而，以GPT-3為代表的超大規模預訓練模型，并不足以解決這一問題。盡管“大模型”帶來了超乎想象的性能表現，但它與圖靈測試仍相距甚遠。

其實，GPT-3并非完全不具備常識，而是受限于單模態的信息獲取方式，導致其常識性不足。眾所周知，大部分常識是不言而喻的，我們并不會直接表達出來，比如太陽有幾只眼睛？鉛筆與烤面包機哪一個更重？換言之，凡是沒有采用文本方式進行表達的常識，都不能為GPT-3所學習。

毫無疑問，相比于單模態，文瀾能夠從圖文融合的多模態中獲取到更多的常識。文繼榮教授表示，常識是無窮無盡，文瀾從圖文模態學習到了哪些常識，不能學習哪些常識，目前仍在進一步研究中。但可以確定的是，多模態為AI擁有常識提供了一條最富潛力的路徑。

區別于科學知識，常識主要來源于人們對一般日常生活的感性認識和經驗總結。由于未通過圖靈測試，GPT-3被認為不具備人類的感知思維，它無法超越數據本身，也無法擁有組合性推理的能力，其生成能力不過是統計層面的“復制粘貼”能力。

為了測試文瀾是否學到了語義信息，并擁有了真正的理解能力。研發團隊對文瀾的“潛意識”過程進行了可視化，即告訴文瀾一個概念，讓它以圖像的形式呈現出“大腦”對這一概念最原始的理解與想象。例如，輸入夢境、科學、自然。

如上圖，經過多模態預訓練后的文瀾，基本能夠“看到”抽象的人類概念，并且不同于CLIP模型，這些可視化結果未經人為干預和手工挑選，是模型對輸入概念的第一反應。這說明，文瀾的生成能力并非基于單純的數據統計，而是對文字本身有了內涵上的理解。

除了抽象概念，文瀾也能對句子、詩詞想象出意境。如輸入【大漠孤煙直，長河落日圓】，雖然沒有明顯的孤煙、長河、落日等意象，但整體棕黃色的氛圍確實體現了大漠的環境。

通過神經元可視化，我們得以窺見文瀾的內心世界，了解其最原始的、最真實的、在“潛意識”中對于輸入文本的獨特理解。文瀾團隊介紹稱，不同于圖文檢索能力，神經元可視化展現了文瀾在藝術生成方面的潛力，下一階段團隊將重點培養其審美能力，使其創作出更好的藝術作品。

4

總結

遵循“煉大模型”的基本原則，文瀾使用6.5萬億真實的圖文對進行預訓練，參數量達到了10億。在此基礎上，它嘗試從多模態場景出發，模擬人類的認知思維，獨創性地提出了基于跨模態對比學習的雙塔結構。

該結構利用圖-文的弱相關性假設，為文瀾提供了更豐富的語義信息和更強大的理解能力，并通過神經元可視化得到了最佳驗證。此外，在公開VQA數據集Visual7W的視覺問答測試任務中，文瀾能額外帶來8%的增長，展示了多模態預訓練的常識學習能力。

總結來看，悟道·文瀾在研發過程中重點關注三個方面，一是如何利用現有的單模態預訓練大模型的研究成果；二是如何更好地刻畫互聯網上圖文弱相關的關系；三是如何讓模型學習到更多常識；針對以上問題，文瀾已經揭開了答案的一角。