全球權威評測榜單BIRD：螞蟻數科超越谷歌等公司位居第一

本文作者：小七

2025-09-26 16:57

專題：2025 Inclusion·外灘大會

導語：螞蟻數科Agentar - SQL評測全球奪魁。

9月26日，據全球權威評測基準BIRD-Bech官網，螞蟻數科的數據分析智能體Agentar-SQL超越AT&T（美國電話電報公司）、谷歌云、騰訊云、阿里云等諸多國內外廠商，位居全球第一。這也是中國公司在該榜單上取得的最高成績。

全球權威評測榜單BIRD：螞蟻數科超越谷歌等公司位居第一

BIRD-Bench是公認的全球最具權威性的自然語言轉SQL評測基準，要求AI大模型將自然語言查詢轉換為結構化查詢語言（SQL），并且在真實復雜的大規模生產級數據庫中穩定執行。BIRD--Bench數據集覆蓋金融、電力、醫療等37個行業場景，總量33GB，包含超過1萬條高復雜度查詢任務，是全球頂級AI團隊展示技術實力的權威平臺。

值得一提的是，螞蟻數科Agentar-SQL在BIRD榜單的執行準確率排行榜（81.67分）以及執行效率榜上（77分）上均取得第一的成績。這意味著螞蟻數科在智能問數領域的技術創新實現全球領先。

據介紹，Agentar-SQL智能體基于螞蟻數科的SQL大模型Agentar-Scale-SQL構建，旨在讓用戶可以通過自然語言輕松完成復雜的數據查詢任務。它通過GSPO（組序列策略優化）強化學習訓練方法，能夠增強SQL內在推理，讓大模型在推理階段，深度思考SQL框架，避免潛在的邏輯錯誤，提升SQL邏輯準確性；此外，Agentar-SQL具備多輪反思修正的能力，讓模型對生成的SQL進行多輪次的審視和修正，提升SQL語言的精準性；Agentar-SQL還通過獨創的兩階段生成法，讓大模型生成多個SQL候選，再對SQL進行兩兩PK的“錦標賽”，篩選出最優的SQL。

螞蟻數科持續深耕AI大模型技術與應用，此前其自研的金融推理大模型Agentar-Fin-R1，在多項主流金融基準測試實現領先。專為新能源行業定制的能源電力垂類時序大模型在行業評測集上的發電量預測準確率超越谷歌（TimesFM-V2.0）、亞馬遜（Chronos-Large）等行業主流的通用時序模型。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

2025 Inclusion·外灘大會

本專題其他文章

小七

編輯

發私信

當月熱門文章