金融領域最新AI評測榜出爐！理財AI“螞小財”金融專業(yè)表現(xiàn)排名第一

本文作者：小七

2025-06-24 14:19

導語：螞蟻Finix金融大模型FinEval6.0評測奪冠，金融嚴謹性86.07分創(chuàng)行業(yè)新標桿。

隨著我國“人工智能+”行動加速推進，大模型技術在金融領域的應用持續(xù)落地。為全面評估金融領域大模型的專業(yè)、可靠程度，近日，上海財經大學推出的國內首個金融領域大模型評估基準升級為FinEval 6.0，新增了金融嚴謹性等維度并發(fā)布首份評測報告。FinEval 6.0對國內外主流大模型的評測顯示，螞蟻集團旗下理財AI“螞小財”的模型底座在金融嚴謹性等維度表現(xiàn)突出排名第一，跑贏了眾多通用大模型。

（金融領域大模型應用評測榜單，上財）

公開資料顯示，上海財經大學是國內最早開展金融領域大模型測評工作的高校，并在2024年參與制定了《金融大模型應用測評指南》，這是全國首個以金融業(yè)務能力為核心的團體標準。此次，上海財經大學結合對AI企業(yè)、金融機構的調研與投資者洞察，重點完善了FinEval 6.0的嚴謹性評測樣本，從金融學術知識、金融行業(yè)理解、金融嚴謹性測試、金融安全認知、金融智能體應用等關鍵維度，全面評估大模型在復雜金融業(yè)務場景中的表現(xiàn)。

同時，F(xiàn)inEval 6.0對國內外9款有代表性的大模型進行評測，包括DeepSeek-R1、GPT- 4o等通用基礎模型，以及金融垂直領域模型。評測報告結果顯示，參評模型在金融學術知識方面的表現(xiàn)整體優(yōu)異，但在金融嚴謹性、金融行業(yè)理解等適配復雜場景的能力上表現(xiàn)各異。其中，理財AI“螞小財”的模型底座、螞蟻自研Finix大模型整體表現(xiàn)較好，總分跑贏了通用大模型。尤其在金融嚴謹性上，行業(yè)均值為70.27分，螞小財超出均值17分顯著領先。

金融領域最新AI評測榜出爐！理財AI“螞小財”金融專業(yè)表現(xiàn)排名第一

（金融領域大模型應用嚴謹性評測排名，上財）

官方數(shù)據(jù)顯示，“螞小財”是螞蟻集團旗下的AI理財管家，連接了螞蟻財富平臺生態(tài)內200多家基金公司、券商和財經媒體的內容與服務。在通用大模型的基礎上，“螞小財”技術團隊還搭建了一套金融智能增強的技術體系，實現(xiàn)了金融場景內專業(yè)功能、交互體驗的全面增強。

“金融領域是國內AI技術應用的焦點場景之一，但天然也對AI的專業(yè)性、嚴謹性等能力提出更高標準。目前國內AI在金融領域的表現(xiàn)逐漸提升，不斷從“博聞強識”走向“專業(yè)審慎”，為下一階段大規(guī)模應用打好了基本盤。”測評團隊負責人、上海財經大學教授張立文表示，這些“AI+金融場景”的積極穩(wěn)妥探索，有助于在國際AI產業(yè)競爭中保持領先身位，也將打開我國數(shù)字金融、普惠金融建設的新局面。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

小七

編輯

發(fā)私信

當月熱門文章