成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給nebula
    發送

    0

    重磅升級、限時免費,通義千問視覺理解模型Qwen-VL性能創新高

    本文作者: nebula 2024-01-26 13:49
    導語:通義千問多模態大模型重磅升級,性能趕超GPT-4V和Gemini。

    1月26日,阿里云公布多模態大模型研究進展。通義千問視覺理解模型Qwen-VL再次升級,繼Plus版本之后,再次推出Max版本,升級版模型擁有更強的視覺推理能力和中文理解能力,能夠根據圖片識人、答題、創作、寫代碼,并在多個權威測評中獲得佳績,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。

    LLM(大語言模型)之后,大模型領域的下一個爆點是什么?多模態是當前最具共識的方向。過去半年來,OpenAI、谷歌等爭相推出多模態模型,阿里云也在2023年8月發布并開源具備圖文理解能力的Qwen-VL模型,Qwen-VL取得了同期遠超同等規模通用模型的表現。

    視覺是多模態能力中最重要的模態,作為人類感知世界、認知世界的第一感官,視覺傳遞的信息占據了“五感”信息的80%。通義千問視覺語言模型基于通義千問LLM開發,通過將視覺表示學習模型與LLM對齊,賦予AI理解視覺信息的能力,在大語言模型的“心靈”上開了一扇視覺的“窗”。

    重磅升級、限時免費,通義千問視覺理解模型Qwen-VL性能創新高

    相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max擁有更強的視覺推理和中文理解能力,整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測評中遠超業界所有開源模型,在文檔分析(DocVQA)、中文圖像相關(MM-Bench-CN)等任務上超越GPT-4V,達到世界最佳水平。

    基礎能力方面,升級版模型能夠準確描述和識別圖片信息,并且根據圖片進行信息推理、擴展創作;具備視覺定位能力,還可針對畫面指定區域進行問答。

    視覺推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等復雜形式圖片,可以分析復雜圖標,看圖做題、看圖作文、看圖寫代碼也不在話下。

    重磅升級、限時免費,通義千問視覺理解模型Qwen-VL性能創新高

    Qwen-VL-Max看圖做題

    圖像文本處理方面,升級版Qwen-VL的中英文文本識別能力顯著提高,支持百萬像素以上的高清分辨率圖和極端寬高比的圖像,既能完整復現密集文本,也能從表格和文檔中提取信息。

    重磅升級、限時免費,通義千問視覺理解模型Qwen-VL性能創新高

    Qwen-VL-Max復現密集文本

    相比LLM,多模態大模型擁有更大的應用想象力。比如,有研究者在探索將多模態大模型與自動駕駛場景結合,為“完全自動駕駛”找到新的技術路徑;將多模態模型部署到手機、機器人、智能音箱等端側設備,讓智能設備自動理解物理世界的信息;或者基于多模態模型開發應用,輔助視力障礙群體的日常生活,等等。

    目前,Qwen-VL-Plus和Qwen-VL-Max限時免費,用戶可以在通義千問官網、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里云靈積平臺(DashScope)調用模型API。

    雷峰網(公眾號:雷峰網)

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說