0
| 本文作者: 胡清文 | 2025-12-31 16:47 |
12月12日,第八屆GAIR全球人工智能與機器人大會在深圳正式啟幕。
本次大會為期兩天,由GAIR研究院與雷峰網(公眾號:雷峰網)聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。
作為觀測AI技術演進與生態變遷的重要窗口,GAIR大會自2016年創辦以來以來,始終與全球AI發展的脈搏同頻共振,見證了技術浪潮從實驗室涌向產業深海。2025年,是大模型從“技術破壁”邁向“價值深耕”的關鍵節點,值此之際GAIR如期而至,攜手智者觸摸AI最前沿脈動,洞見產業深層邏輯。
大會上,之江實驗室科學模型總體組技術總師,天壤智能CEO薛貴榮博士親臨現場,為參會者帶來了一場精彩紛呈的演講分享。
薛貴榮博士指出,以大語言模型為代表的AI技術雖已在多個學科研究中展現出潛力,但其本質上仍受限于“語言的邊界”,難以真正理解高維度、多類型的科學數據,更無法獨立完成可驗證的科學發現。
基于此,薛貴榮博士系統分析了大語言模型與科學基礎模型之間的本質差異,并詳細闡述了之江實驗室所研發出的021科學基礎模型在突破語言維度、統一化科學數據、科學推理與發現,跨學科知識融合等方面的關鍵優勢。同時,他提出一些關于面向“AI+科學”新范式的思考:
1、大語言模型在解決科學問題上還存在很大的局限,在覆蓋100多個學科的高難度HLE測試中,表現最優的模型目前也只達到了25.4%的準確率。
2、要想解決科學問題,大科學基礎模型的需要超越語言空間,做到真正理解化學、天文學、地球科學、生命科學、材料科學等各類科學知識。
3、科學基礎模型與當前的大語言模型之間的主要差別是,大語言模型以文本數據作為Token化的基礎,而科學基礎模型所對應表達的Token是跨學科、多類型的科學數據。
4、要想把科學數據Token化得先解決OneTokenizer的問題,就是把光譜、化學結構、DNA數據等結構化之后統一到一個高維空間中。
5、將科學數據Token化對齊后可以建立起不同類型數據之間的關聯,就可以在解決不同學科、不同專業的科學問題時做出全鏈路解析。
6、為打破大語言模型解決科學問題的局限性,之江實驗室推出了021科學基礎模型,在對科學世界形成客觀認知的基礎上,具備迅速、精準、高泛化性的科學知識問答能力。
精彩演講回顧
現場演講完整視頻,詳見鏈接:https://youtu.be/NZ4nW4cegLg
以下是薛貴榮博士演講的精彩內容,雷峰網作了不改變原意的整理與編輯:
01
為什么說大語言模型不夠用了?
接下來我跟大家介紹一下我們在之江做的工作,科學基礎模型。
大家都知道今年我們國家發布了“人工智能+”戰略,其中的第一個就是+科學技術。那么科學技術有什么作用?如何訓練將它轉變成真正的基礎模型呢?我們就這些問題跟大家介紹一下。
AI+科學是非常具有挑戰性,但也同時也非常exciting的領域。上個月美國發布了“創世紀計劃”,類比于曼哈頓計劃。曼哈頓計劃大家都知道,美國集合了非常多的工程師與科技人員,一起攻堅了一個歷史上最重要,并且是規模最大的科技工程項目。
這次的“創世紀計劃”,也被定義為“AI曼哈頓計劃”,美國集合了17個國家實驗室、4萬名科學家,是冷戰以來對聯邦科技資源的一次最大動員。這個計劃非常詳盡,對于不同時間點的任務部署有著明確規定,作為國家科技工程項目,勢必要人工智能技術在科學領域做出重大產出。

這個項目的相關負責人Dario Gil提出,如今人工智能科學應用可以用對話的方式作為開始。正如AI真正的價值不只是寫論文的摘要,更重要的是能夠形成可驗證的結果。需要調用模型以及實驗室在幾十年間積累的數據,形成一個可驗證、可迭代的數據集,通過訓練模型,并最終應用到科技行業當中。
人工智能在科技里的應用其實非常早,我主要講述大語言模型在科學研究中的應用。

這是一份美國的報告,聚集了很多科學家共同研究如今的人工智能在科學發現能解決什么樣的問題?一共總結出了5個部分,多模態和多尺度學習、遷移學習、數字孿生、實驗設計和交互學習。
那么今天的AI,在科研當中究竟起到什么作用呢?這份報告顯示,他們又找了1600名研究人員,其中三分之二認為人工智能工具提升了數據處理的方法,另外有超過一半認為人工智能加快了計算速度,節省了成本和時間。
2024年,當今數學界最年輕的教授陶哲軒提出,到2026年,人工智能會成為數學研究中值得信賴的新合作者。他個人非常積極地應用AI來做科學研究,最近他也頻繁使用大語言模型解決數學難題,例如最近他使用GPT-5Pro成功探索了微分幾何難題“有界曲率球體問題”的本質。
這件事最有趣的是他并不擅長這個領域,也就是說:今天,我們能夠借助人工智能,解決更多科學領域問題,科學的人工智能時代已經來臨了。
OpenAI最近也有一個計劃:要把人工智能用到科學當中,早前9月3日,OpenAI宣布啟動一項新倡議——OpenAI for Science,想要打造一個由人工智能驅動、加速科學發現的平臺,并實現了如量子場論的推導過程和干細胞相關的蛋白質優化等相關問題的研究。
最近,OpenAI又招了一名主要做黑洞研究的天文學家亞歷克斯·盧斯帕卡,來幫助找尋宇宙銀河系中黑洞的所在位置。這個研究人員之前也是做這方面理論研究的,之前他花費數日才計算出來的“黑洞擾動理論中新對稱性”的精確形式,GPT-5 Pro僅花30分鐘就解決了。
02
科學基礎模型如何補齊 LLM 的科研短板?
雖然大語言模型解決了很多科學問題和推理,但大語言模型要想真正服務于科學還面臨著非常多的挑戰。
語言是人類交流過程中表達思想的一種符號,它是人類認知的皇冠上的明珠,正如Ludwig Wittgenstein所說:“語言的邊界,就是世界的邊界。”
今天大家都紛紛想用能夠代表我們認知的語言模型,來解決科學問題。然而根據HLE發布的最新研究結果,大語言模型在科學知識與推理方面暫時沒有達到人類認知的極限,在覆蓋100多個學科的高難度HLE測試中,表現最優的模型目前也只達到了25.4%的準確率。

所以目前要用大語言模型來服務科學,其中仍然存在很大的挑戰。要想真正服務于科學,需要模型能夠跨越語言的邊界,做到真正理解所謂的分子、基因、地震、光譜等各種各樣高維的科學數據。
眾所周知,一張圖片勝過千言萬語,圖片是另外一種讓我們能夠表達思想的重要渠道,但后來我們發現,在科學數據中還有一種更復雜的東西,叫做光譜。剛剛我們說一張圖片勝過千言萬語,而一張光譜勝過千萬張圖片。
無論是遙感圖片,還是在化學實驗室中做實驗分析,我們都會用一個非常重要的儀器,就是光譜拍攝儀,而拍出來的東西就是光譜數據。這些數據不僅能告訴我們它是什么,還可以告訴我們它表達了什么樣的波段值,是由什么元素構成的。
還有一類生命科學數據就是基因。基因信息量非常大,每個人攜帶的基因序列大概是30億個。有人做了一個分析,一個咖啡杯容量的DNA可以存儲世界上所有的數據。人類所攜帶的這么長的基因序列,它能表達的信息量也是非常高維的。
接下來就是地球科學研究的一個典型數據叫地震波。地震波其實就是地球的語言,在告訴我們哪個地方會發生地震,或者有可能會發生地震。當然,我們通過地震波不僅僅只是預測地震,我們還可以知道地下的結構。
要想找油探礦,就必須清楚地了解地下的空間結構,而地震波分析就是非常好的手段,類似于我們看光譜一樣,地震波也是非常復雜的數據表達。
根據香農的信息論和經典語言學模型來看,自然語言實際是一種低維的離散符號系統。而科學數據包含時間、空間和能量等更高維的特性,它需要表達的維度空間,要遠遠大于語言所能描述的空間。

從上面這張圖可以看到,語言表達只是非常小的一部分。再看右邊,這是我們人類疾病關聯到的所有學科的知識維度,大概是二十幾維。如果只是純粹用語言來表達我們所看到的世界,空間會非常小,或者說沒辦法完全表達我們所理解的世界。
我們希望,科學的基礎模型能夠解決這個難題。
科學基礎模型和如今的大語言模型之間存在本質的差別。
首先是數據維度,當前的大語言模型還是以文本數據作為Token化的基礎。但科學基礎模型所對應表達的科學數據Token化,是科學空間加上語言空間。因此要表達的維度要遠超語言。
這里所指的空間不僅包括我們剛剛講的一系列空間,它是跨學科、多種類類型的。這其實是一件非常有挑戰性的事。而這一切的前提,就是如何有效的對科學數據進行Token化,即解決Tokenizer的問題。
所謂的OneTokenizer,就是把我們見到的所有東西盡量都統一到一個科學數據當中。包括我們剛剛說到的所謂的光譜、化學結構、蛋白質結構、DNA、地震波數據等等,我們都希望把它結構化到一個空間里面。

當然,這些數據本身有它所表達的數據,比如分子式。我們希望哪怕是用文本描述,也可以將它們區隔來表示。比如同樣一個C,在分子式、蛋白質、DNA,以及正常的英文單詞當中,它所表達的意思是有區別的。
這是一件很復雜的工作,這個事情要真正做好,不僅需要AI科學家團隊,還需要很多科學家跟我們一起合作完成。
這就是我們正在做的工作,我們正在把基因組學、細胞組學、光譜、晶體材料、時序數據、空間結構數據等全部Token化,將它們放到一個空間當中。
其次是,Token化之后,很多事情就對齊了,這也是數據治理非常重要的事。剛剛鄭宇老師講了很多城市數據要對齊,其實科學數據也需要對齊。科學數據對齊以后就有真正的科學發現了。
我舉四件案例來解釋一下對齊的價值:
1、動物遷移&環境變化。大家都知道大雁南飛,那么為什么要往南飛呢?是隨著溫度變化在本能的飛行嗎?通過地球的溫度數據以及鳥的遷移會發現,鳥的遷移是根據溫度的變化在選擇路徑的,其實是通過感官角度來做這個事。
2、住房密度&溫度。這也是跟城市相關的數字,這個數據如果能很好地對齊,非常有助于我們做科學規律的發現。
3、GDP變化&夜光分布。我們在太空拍攝的夜光圖片以及城市GDP的變化,相互之間也是有關系的。
4、衛星上&望遠鏡上拍攝太空。這兩種觀測方一種拍攝的圖像質量高,一個拍攝的圖像質量低。同時對一顆恒星進行拍攝的時候,其實本身已經做到了對齊,但數據質量不一樣,把兩個數據一起拿來,可以進行新的數據發現。
把數據Token化,建立數據與數據之間的關聯,從而保證不同學科或同一學科、不同專業之間的對齊,就像將DNA、蛋白質、疾病表征的對齊,我們就可以進行全鏈路的科學解析。
從0到1,我們訓練了科學基礎模型。這個過程也很復雜,不僅僅需要有足夠的算力、數據,同時也要有高效的模型訓練系統。我們做了預訓練、到CPT、Long CPT、SFT、CoT SFT,再到強化學習。現在我們還在內測中。
以上就是我們科學基礎模型的技術探索,因為沒有參考對象,是從零到一的創新,所以我們的科學基礎模型就命名為021。
03
科學基礎模型的應用場景有哪些?

接下來我介紹一下這個模型的應用場景。其實我們用了非常多的專業科學知識,這是它的大概分布圖,涉及數學、物理、化學、計算機等19個重要學科,覆蓋174個領域的科學知識。
這些領域,需要花大量的人力成本來收集數據,大概是幾個T的Token,相較于互聯網語料,真的只占1%的規模。所以這個數據未來如果想做大,如果想做Scaling Law,還有很大的挑戰。當然我們也在不停收集新的數據納入進來,比如實驗室的實驗數據。
其次是科學推理,基于這個模型我們可以根據一段語言的描述,通過對話的方式,做分子結構的生成、編輯、修改,達到它所要求的性能。這些原本需要通過高通量的實驗,需要花上幾個月到一年的時間才能夠做到的事情,今天通過對話方式很快就可以做到。

同樣,我們也打穿了從基因到疾病診斷的整個流程,能做從基因組學到細胞生物學、病理學、臨床醫學的整個鏈路。上圖中就是一個基因的突變,我們想知道它是良性的還是惡性的,就可以用這個模型來獲得答案。因為我們訓練了非常多的科學數據,這應該是當前世界上從基因到疾病精準診斷流程精度最好的模型。
在將來,我們希望所有的人能享受到這樣的模型服務,所以語言也是非常重要的,我們這個模型支持應用全世界204種語言。
做這個科學基礎模型,非常挑戰的是需要非常多的科學家參與進來。那么怎么搞這件事呢?我們也有三套路徑。
首先是種子班。我們跟天文、地學、材料科學、生命科學等很多國家實驗室、高校、企業建立了大模型種子班,大家一起共創。他們派幾十個做科學的人,我們這邊派幾十個做計算的人,大家一起來了解這件事怎么做。
但前提要求是大家得相互了解,所以我們培訓他們來了解模型,他們培養我們來認識什么是該領域的關鍵數據、關鍵問題。
其次是科學家工作坊。我們建立了科學家工作坊。剛才我們碰到的那些問題,都是科學家告訴我們的,我們一起開展聯合合作,請他們過來跟我們一起干三個月或半年,他們可以帶他們的學生。
當前我們在跟國內、國際的一些專家在做深度協同創新。我們深知這個事的難度,所以我們希望越來越多的科學家能夠參與進來。所以我們也發起了一個倡議,希望通過全球征集各學科的科學問題,來探索人工智能在科學領域的極限,當然我們也設立了獎金池以及一攬子科研支持方案。
第三是開放研究平臺。我們開發的所有數據、模型都會在zero2x平臺上進行開放。zero2x平臺是一個開放科學研究平臺。我們希望更多的人能夠來直接使用平臺進行科學發現,也可以通過平臺跟我們一起進行科學研究的創新。
本次報告的最后,我們希望,通過科學基礎模型,真正推動科學研究范式的變革。讓我們一起加速科學的人工智能時代到來,謝謝。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。