重磅升級、限時免費，通義千問視覺理解模型Qwen-VL性能創新高

本文作者： nebula

2024-01-26 13:49

導語：通義千問多模態大模型重磅升級,性能趕超GPT-4V和Gemini。

1月26日，阿里云公布多模態大模型研究進展。通義千問視覺理解模型Qwen-VL再次升級，繼Plus版本之后，再次推出Max版本，升級版模型擁有更強的視覺推理能力和中文理解能力，能夠根據圖片識人、答題、創作、寫代碼，并在多個權威測評中獲得佳績，比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。

LLM（大語言模型）之后，大模型領域的下一個爆點是什么？多模態是當前最具共識的方向。過去半年來，OpenAI、谷歌等爭相推出多模態模型，阿里云也在2023年8月發布并開源具備圖文理解能力的Qwen-VL模型，Qwen-VL取得了同期遠超同等規模通用模型的表現。

視覺是多模態能力中最重要的模態，作為人類感知世界、認知世界的第一感官，視覺傳遞的信息占據了“五感”信息的80%。通義千問視覺語言模型基于通義千問LLM開發，通過將視覺表示學習模型與LLM對齊，賦予AI理解視覺信息的能力，在大語言模型的“心靈”上開了一扇視覺的“窗”。

重磅升級、限時免費，通義千問視覺理解模型Qwen-VL性能創新高

相比Qwen-VL，Qwen-VL-Plus和Qwen-VL-Max擁有更強的視覺推理和中文理解能力，整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測評中遠超業界所有開源模型，在文檔分析（DocVQA）、中文圖像相關（MM-Bench-CN）等任務上超越GPT-4V,達到世界最佳水平。

基礎能力方面，升級版模型能夠準確描述和識別圖片信息，并且根據圖片進行信息推理、擴展創作；具備視覺定位能力，還可針對畫面指定區域進行問答。

視覺推理方面，Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等復雜形式圖片，可以分析復雜圖標，看圖做題、看圖作文、看圖寫代碼也不在話下。

重磅升級、限時免費，通義千問視覺理解模型Qwen-VL性能創新高