通義千問登頂OpenCompass開源基模評測榜

本文作者：我在思考中

2023-12-12 11:16

導語：僅開源12天，通義千問包攬多個大模型權威評測冠軍！

12月12日，中國權威的大模型評測平臺OpenCompass日前更新了榜單，阿里云通義千問登上開源基座大模型榜首，并在中文數據集評測中包攬前二。

通義千問登頂OpenCompass開源基模評測榜圖說：通義千問72B登頂OpenCompass基座大模型榜

OpenCompass是上海人工智能實驗室開源的大模型評測平臺，涵蓋學科、語言、知識、理解、推理等五大評測維度，支持50余個數據集的評測，Qwen、LLaMA2等開源模型及GPT-4、ChatGPT等主流模型均參與評測，可全面評估大模型能力，是業界公認最權威的中文能力評測榜單之一。

通義千問72B開源模型（Qwen-72B），以67.1的綜合得分奪得OpenCompass基座大模型榜單冠軍，并在學科能力、理解能力兩大維度評測中超越標桿GPT-4，創下開源大模型的新紀錄。而在OpenCompass中文數據集評測中，通義千問72B基座大模型和對話大模型（Qwen-72B-Chat）包攬前二，與其他模型拉開差距。

通義千問登頂OpenCompass開源基模評測榜圖說：通義千問72B基座大模型及對話大模型包攬中文數據集測試前二

據了解，自12月1日開源，通義千問72B即在10個權威基準評測中創下開源模型最優成績，幾天前力壓Llama2登頂全球最具權威性的HuggingFace排行榜，此次又登上OpenCompass榜首，通義千問72B已成為國內外公認的性能最強的開源大模型，完全可滿足企業級、科研級應用對大模型性能的高要求。

截至目前，阿里云已開源通義千問18億、70億、140億、720億參數的4款大語言模型，以及視覺理解Qwen-VL、音頻理解Qwen-Audio的 2款多模態大模型，開源模型系列總下載量超150萬，并涌現出150余款新模型和新應用。

為打造“AI時代最開放的大模型”，通義千問將持續投入開源，并為中小企業及全球開發者提供更便利的大模型服務：開發者可在阿里云魔搭社區直接體驗系列模型效果，也可通過阿里云靈積平臺調用模型API，或基于阿里云百煉平臺定制大模型應用；阿里云人工智能平臺PAI還針對通義千問全系列模型進行深度適配，推出輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章