又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

本文作者：我在思考中

2022-06-14 10:37

導語：革自己的命！BIG-bench上評估谷歌自家模型，性能擊敗了PaLM之前所有。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

作者 | 李梅、劉冰一

編輯 | 陳彩嫻

繼斯坦福100名作者合作發布「Foundation Model」研究綜述、智源集合100位作者發布大模型研究綜述（后被曝「翻車」）后，近日，AI 圈又出現了一篇集結超過百位作者合著的論文！

這篇論文（“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”）由谷歌發布，聚集了442名作者！

在論文的 PDF 文檔里，作者列表就占了一整頁：

論文地址：https://arxiv.org/pdf/2206.04615.pdf

GitHub：https://github.com/google/BIG-bench

把所有名字排版在同一頁，若想找出某一作者名字還是挺考驗視力的。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

規模龐大，作者之一 William Fedus 感慨這還真是 It takes an army 啊。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

文章七七八八總計 100 頁，參考文獻從 51 頁開始，占篇幅的一半。

由于研究參與者人數太多了，一句兩句說不清楚誰的貢獻更大一些，干脆在文章專門設置一個章節闡述諸公心血。

篇幅不多，也就 15 頁。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

列舉的核心貢獻有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人，他們執行大語言模型新基準 BIG-bench github 代碼基礎設施和文檔等工作。

還有Review的、提供任務的……

但是，這些特別提及的核心貢獻者并不在文章作者欄之首，因為本文沒有區分第一作者，作者欄順序是按姓氏字母順序排列的。

推特上反響還不錯，有讀者說該工作“似乎是個金礦，非凡的合作 ?? ”。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

還有評論稱：“對組織者在推動這項工作完成方面的領導力表示極大的贊賞！令人興奮的大規模合作模式，造福整個社區。”

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

（好奇谷歌集結了這么多人合著，有沒有做「論文查重」？咱也不敢說，咱也不敢問）

那么，這篇工作究竟講了些什么？

大模型新基準：BIG-Bench

據了解，此文是谷歌將 BIG-Bench 的論文和 GitHub 公開。

BIG bench由 204 項任務組成，任務主題涉及語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟件開發等等領域的問題。

在 Jeff Dean 等人架構的 PaLM 模型中，研究人員在 BIG-Bench 的大模型專用基準上進行了多項任務測試。

該研究持續了 2 年時間，上百人之中不乏工作單位變動的。

谷歌之所以推出大模型新基準，是因為隨著語言模型的規模不斷擴大，其性能得到了改進，一些新性能可能具有潛在的變革性影響，但還未得以明確。為了評估現存語言模型的性能和局限性，作者團隊特地引入了基準BIG-bench。

Beyond the Imitation Game 基準（BIG-bench）的GitHub 資源庫包括：

超過 204 個語言任務。如 BIG-bench 審查標準那樣，基準任務涵蓋了不同的主題和語言，并且是目前的模型所不能完全解決的。

BIG-bench Lite：一個小型、且具有代表性的任務子集，比在整個基準上進行更快的評估。

實現基準 API 的代碼：支持在公開可用的模型上進行任務評估，并實現新任務的輕量級創建。

對規模橫跨六個數量級的密集和稀疏語言模型的詳細評估結果，以及由人類評估員建立的基線結果。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

BIG-bench支持兩種類型的任務：JSON和編程任務，其中大約80%的基準任務是JSON任務。

JSON任務由JSON文件定義，該文件包含由輸入和目標組成的示例列表。通過使用標準指標（如ROUGE）或基于模型分配的概率（如回答多項選擇題），將生成的模型輸出與目標進行比較來評估性能。基于示例的JSON任務規范還允許進行簡單的少樣本評估。

另外大約20%的基準任務是程序化的，它們用Python編寫，能夠在多輪查詢中直接與模型交互，并且能夠使用自定義度量來衡量性能。使用模型對象調用編程任務，可以使用以下方法查詢模型：

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

BIG-bench 的評估發現

作者團隊在 BIG-bench 上評估了多個語言模型的能力，模型大小從數百萬到數千億個參數，包括 OpenAI 的 GPT 模型、Google 內部密集 transformer 架構和 Switch 式稀疏transformer的性能等等。

盡管語言模型因其大規模而具有良好的性能，但相比于人類，它們在BIG-bench上的表現仍然很差。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

他們還評估了谷歌自家的PaLM模型，結果表明其性能擊敗了在PaLM之前的其他模型（狗頭），盡管PaLM仍然低于最好的人類評分者（如下圖中的深藍色虛線），但它已經超過了BIG-bench Lite分區上平均人類評分者（如下圖中的藍色虛線）。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

在一些任務上，語言模型的性能隨規模的增大而平穩提升；而在另一些任務上，語言模型會在某個特定規模上突然產生突破性的表現。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

經過評估，他們還發現，隨著模型規模的擴大，它們的社會偏見性越來越突出。對此，一個可能解釋是較大的模型在匹配其訓練集中的偏差方面做得更好。不過，當上下文清楚表明偏見不可取時，偏見就會隨著規模的擴大而減少。

這一結果強調了針對機器學習系統公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

要解決模型中的社會偏見問題，作者團隊給出三個發現：1）在上下文廣泛或模棱兩可的情況下，偏見通常會隨著規模的擴大而增加；2）在狹窄、明確的上下文中，偏差會隨著規模的增大而減小；3）可以通過選擇適當的提示來引導偏見。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

圖注：對于明確或積極提示的上下文，偏差可能會隨著規模的變化而減少，或更穩定

他們還發現，模型在英語任務上的表現優于非英語任務，在涉及低資源語言的任務上表現尤其糟糕。在一些情況下，低資源語言任務的性能沒有隨著模型規模的增大而提高，而相應的英語任務的性能則會隨著規模的增大而提高。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

總體上，稀疏模型的性能與使用多 2 倍推理成本的密集模型一樣好，它們的校準效果與使用多出約 10 倍推理計算的密集模型一樣好。

又一篇超百名作者的 AI 論文問世！442位作者耗時兩年發布大模型新基準 BIG-bench……

當手動檢查模型輸出時，團隊發現，模型在一定規模后開始生成電影標題，在更大的規模下會開始識別表情符號的語義，并且在某些情況下以最大的規模輸出正確的答案。一個有代表性的例子如下圖所示：

圖注：根據精確的任務指標，在 emoji_movie 識別上的表現會顯得很突然或漸進。

此外，他們發現，模型的編程能力十分主觀。即使是通過具體的任務進行量化，語言模型的能力和跨規模的軌跡也比我們所想的要主觀得多。

再聯想這兩天吵得如火如荼的「AI 是否具備人格」……

大家怎么看？

參考鏈接：

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments

雷峰網雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

我在思考中

運營

發私信

當月熱門文章