0
| 本文作者: 徐咪 | 2026-03-03 17:43 |
春節期間國產大模型迎來集中上新周期,全球大模型競技場 LMArena 榜單格局隨之出現重大調整。
其中,字節跳動旗下 Seed 2.0 的表現最為亮眼。該模型為首次亮相 LMArena 榜單,便成功躋身綜合排行榜全球前十,位列本次登榜國產模型首位。同期密集發布的多款國產旗艦大模型亦同步登榜,GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜單第 16 至 19 位。國產大模型第一梯隊正以前所未有的集群姿態,集體沖擊全球大模型技術最高水平。
本次 LMArena 綜合榜單頭部席位仍由國際主流大模型占據,榜單前三依次為 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1;國產陣營中,Seed 2.0 位列綜合榜單第 9 位,是唯一進入全球前十的國產大模型。
從細分項看,幾家國產新旗艦的能力結構并不相同。
字節的 Seed 2.0 是目前表現最強勢的國產模型,綜合排名位列全球第 9。 該模型在 Coding 上尤為出色,排名全球第 7,在 Hard Prompts(高難度指令) 方面也位居第 8。這表明字節的 Seed 系列在處理復雜邏輯和生產力工具場景下,已經具備了與 Google Gemini 和 OpenAI GPT 系列正面硬剛的實力。
月之暗面的 Kimi-K2.5-thinking 雖然綜合排名在第 19,但在特定的推理領域表現驚人。 它在 Math 維度高居全球第 8,在 Expert 維度排名第 10。這說明 Kimi 的強化學習和思考機制在解決極高難度的理科問題和復雜知識理解上,甚至超過了許多排名更靠前的通用型模型。
GLM-5(智譜AI)、Ernie-5.0-0110(百度文心) 以及 Qwen3.5-397b(阿里千問),分別占據了第 16、17、18 名。 這些模型在 Math 等硬核指標上普遍優于其綜合排名,反映出國產模型在數理邏輯和技術落地上的深耕。
雖然國產模型在 Top 20 中占據了近四分之一的席位,但與最頂尖的 Claude-opus-4-6 和 Gemini-3.1-pro 在 Overall 和 Creative Writing 方面仍有一定身位差。 目前國產模型主要在硬實力(數學、編程、專家知識)上尋求突破,而在指令遵循的細膩程度和長文本任務的穩定性上,仍是未來追趕的主要目標。
與此同時,在垂直賽道的細分戰場上,國產模型的表現進一步印證了“全賽道滲透、多點開花”的趨勢。
在考驗網頁開發能力的代碼賽道,智譜AI的 GLM-5 表現搶眼,以 1452 的評分排名第8,成為唯一殺入該項前十的國產力量。
在視覺理解(Vision)維度,Seed 2.0排名第4,僅次于Gemini的三款模型。此前在綜合排名中稍顯靠后的 Kimi K2.5-thinking ,在視覺賽道成功躋身全球前十。
然而,搜索(Search)賽道依然是國產模型亟待攻克的堡壘。在目前的全球前十排名中,國產模型尚無一上榜,該領域仍由 Grok、GPT 和 Gemini 等把持。在搜索與大模型深度融合的精準度上,國產陣營仍需更高效的工程化落地。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。