成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給徐咪
    發(fā)送

    0

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    本文作者: 徐咪   2025-08-27 11:50
    導(dǎo)語:最終,通過輕量化的 RLAIF-V 訓(xùn)練階段,模型在保持推理能力的同時(shí)顯著降低了幻覺

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    今天,我們正式開源 8B 參數(shù)的面壁小鋼炮 MiniCPM-V 4.5 多模態(tài)旗艦?zāi)P停蔀樾袠I(yè)首個(gè)具備“高刷”視頻理解能力的多模態(tài)模型,看得準(zhǔn)、看得快,看得長!高刷視頻理解、長視頻理解、OCR、文檔解析能力同級 SOTA,且性能超過 Qwen2.5-VL 72B,堪稱最強(qiáng)端側(cè)多模態(tài)模型。

    ? MiniCPM-V 4.5 亮點(diǎn)一覽 

    ? 首個(gè)「高刷視頻理解」多模態(tài)模型,兼顧性能與效率:高刷視頻理解同級 SOTA 且超過 Qwen2.5-VL 72B 越級領(lǐng)先;同等視覺 token 開銷下, MiniCPM-V 4.5 可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍;

    ? 最強(qiáng)多模態(tài) SOTA 模型:圖片理解、長視頻理解、OCR、文檔解析同級 SOTA,且超過 Qwen2.5-VL 72B 達(dá)到 越級領(lǐng)先;

    ??? 端側(cè)友好:提供 SOTA 級多模態(tài)表現(xiàn)的同時(shí),帶來最佳的推理效率,顯存占用、平均推理時(shí)間等領(lǐng)先優(yōu)勢顯著;

    ? 支持長思考、短思考可控混合推理,性能好、速度快。

     ?  模型鏈接 

    ? Github: 

    https://github.com/OpenBMB/MiniCPM-o

    ? Hugging Face:  

    https://huggingface.co/openbmb/MiniCPM-V-4_5

    ? ModelScope: 

    https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

      01 

    首個(gè)高刷視頻理解

    兼顧性能與效率

    看得更清更準(zhǔn),才能減少視覺信息的誤差,提升視覺理解與推理準(zhǔn)確性。更高刷新率,是畫面流暢度的關(guān)鍵。

    此前,主流的多模態(tài)模型在處理視頻理解任務(wù)中,因?yàn)槠胶馑懔Α⒐牡纫蛩兀ǔ2扇?1 fps 抽幀,即每秒只能截取 1 幀畫面進(jìn)行識別和理解。雖然一定程度上保證了模型推理效率,但也因此缺失了絕大部分視覺信息,降低了多模態(tài)大模型對動(dòng)態(tài)世界「精細(xì)化」的理解。

    MiniCPM-V 4.5 是行業(yè)首個(gè)具備高刷視頻理解能力的多模態(tài)模型,通過將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮,在同等視覺 Token 量開銷下的情況下,最大可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍。

    MiniCPM-V 4.5 通過顯著增加抽幀頻次,從看「PPT」變成理解「動(dòng)態(tài)畫面」,瞬間捕捉,洞見細(xì)節(jié)!面對一閃而過的畫面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更準(zhǔn)、更細(xì)。           

    在 MotionBench、FavorBench 兩項(xiàng)體現(xiàn)高刷視頻理解能力的榜單中,MiniCPM-V 4.5 達(dá)到同尺寸 SOTA,且超過 Qwen2.5-VL 72B,實(shí)現(xiàn)越級領(lǐng)先水平。

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

      02 

    最強(qiáng)端側(cè)多模態(tài)

    圖片、視頻理解全 SOTA

    以小博大,一直是面壁小鋼炮 MiniCPM 的模型特色。這一次,MiniCPM-V 4.5 憑借 8B 參數(shù),在圖片理解、視頻理解、復(fù)雜文檔識別等多模態(tài)能力上再次刷新能力上限。

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    圖片理解性能上,MiniCPM-V 4.5 在 OpenCompass 測評中,領(lǐng)先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等眾多閉源模型 ,甚至超過 Qwen2.5-VL 72B,實(shí)現(xiàn)越級領(lǐng)先。

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    視頻理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜單中,均達(dá)到同級最佳水平。

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    在復(fù)雜文檔識別任務(wù)中,MiniCPM-V 4.5 在 OmniDocBench 榜單的 OverallEdit、TextEdit、TableEdit 三項(xiàng)指標(biāo)上,均取得了通用多模態(tài)模型同級別的 SOTA 表現(xiàn)。

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    此外,MiniCPM-V 4.5 同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡,常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。

      03 

    極致推理性價(jià)比

    端側(cè)應(yīng)用優(yōu)選

    在端側(cè) AI 應(yīng)用持續(xù)升溫的當(dāng)下,模型能力再強(qiáng),如果無法在端側(cè)設(shè)備上穩(wěn)定、流暢運(yùn)行,一切都是空談。

    面壁小鋼炮 MiniCPM 不斷提升模型的「能力密度」,也一直致力于追求大模型的極致「能效比」,通過更低的顯存占用、更快的響應(yīng)速度,確保在提供 SOTA 級多模態(tài)表現(xiàn)的同時(shí),也實(shí)現(xiàn)最佳的推理效率和最低的推理開銷。

    在視頻理解榜單 VideoMME、以及單圖OpenCompass測試中,MiniCPM-V 4.5 達(dá)到同級 SOTA 水平,顯存占用、平均推理時(shí)間等方面領(lǐng)先優(yōu)勢顯著。

    其中,在覆蓋短、中、長三種類型的視頻理解評測集 Video-MME 上,MiniCPM-V 4.5 采用 3 幀打包策略進(jìn)行推理,時(shí)間開銷(未計(jì)算模型抽幀時(shí)間)僅為同級模型的 1/10 。

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

      04 

    技術(shù)解析

    MiniCPM-V 4.5 作為多模態(tài)模型的新旗艦,之所以具備「高刷」視頻理解能力、并取得圖片理解、OCR、長視頻理解等 SOTA ,主要得益于在模型結(jié)構(gòu)、訓(xùn)練范式等領(lǐng)域的創(chuàng)新。

    3D-Resampler 實(shí)現(xiàn)高密度視頻壓縮 

    當(dāng)前,制約多模態(tài)模型視頻理解能力的最核心挑戰(zhàn)是性能和效率的 Trade-off,即模型需要看更多視頻幀,才能獲取更精細(xì)的信息以提高理解上限;而模型融入太多視頻幀,又會(huì)造成顯存、推理速度等開銷爆炸。由于局部片段的不同視頻幀之間存在信息冗余性,即大部分視覺信息不變,僅有少部分信息發(fā)生變化,存在很大的信息壓縮空間。MiniCPM-V 4.5 將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮。具體來說,視頻會(huì)按照每N個(gè)視頻幀一組分組(分組尺寸最大為 6 ),3D-Resampler 會(huì)對每個(gè)視頻組壓縮編碼,得到 64 個(gè)視覺token(與編碼單圖視覺token數(shù)量相同),最終在推理開銷不變的情況下,最大 10 fps 抽幀,實(shí)現(xiàn)了模型高刷視頻理解能力。得益于 Resampler 機(jī)制的靈活性,我們可以在推理階段靈活調(diào)整視頻分組尺寸,同時(shí)支持單圖、多圖、視頻的統(tǒng)一編碼(即單圖編碼視為 3D 視頻編碼的 2D 特例),方便知識和能力遷移。

    面向多頁文檔圖片的統(tǒng)一 OCR 和知識推理學(xué)習(xí)

    「對文字的識別解析」和「從文檔中學(xué)習(xí)知識」是多模態(tài)大模型的兩個(gè)重要課題,但這兩個(gè)方向的學(xué)習(xí)范式割裂,并且分別受到圖像樣例難度和解析準(zhǔn)確性的限制。提升 OCR 能力往往需要補(bǔ)充更豐富且難的數(shù)據(jù),數(shù)據(jù)增廣(例如對圖像中文字加高斯噪音)往往會(huì)被采用,以提升數(shù)據(jù)的難度和多樣性,但是過大的增廣會(huì)使得文字不可讀,反而會(huì)導(dǎo)致模型幻覺。在文檔知識學(xué)習(xí)方面,大部分工作會(huì)將文檔解析成為圖文交替數(shù)據(jù)進(jìn)行學(xué)習(xí),嚴(yán)重受到文解析工具錯(cuò)誤的影響。

    MiniCPM-V 4.5 連續(xù)控制圖像中的「文字信息可見度」,使得多模態(tài)模型在 OCR 和知識學(xué)習(xí)兩種模式之間無縫切換,首次實(shí)現(xiàn)了OCR 和知識學(xué)習(xí)兩種學(xué)習(xí)范式的有效融合,且不會(huì)受到過難增廣和解析錯(cuò)誤的影響。具體來說,我們首先提取出文檔中的文字框(這通常是非常準(zhǔn)確的,大部分解析錯(cuò)誤來源于排版、閱讀順序、低信息量圖文噪音錯(cuò)誤),然后對文字框內(nèi)區(qū)域進(jìn)行不同程度的噪音增廣。當(dāng)施加噪音較小,文字處于尚可辨別范圍內(nèi)時(shí),模型會(huì) OCR 學(xué)習(xí)識別文字;當(dāng)施加噪音較大,文字無法辨認(rèn)時(shí),模型會(huì)自動(dòng)進(jìn)入知識學(xué)習(xí),根據(jù)文檔的多模態(tài)上下文還原文字;當(dāng)噪音介于兩者之間,模型會(huì)進(jìn)行混合能力的學(xué)習(xí)。基于上述技術(shù),MiniCPM-V 4.5 低成本實(shí)現(xiàn)了領(lǐng)先的 OCR 能力和多模態(tài)知識能力。

    通用域混合推理強(qiáng)化學(xué)習(xí)

    深度思考推理能力極大拓展了多模態(tài)大模型的推理能力邊界,但在常見問題場景中,也往往伴隨過高的推理延遲。MiniCPM-V 4.5 同時(shí)支持常規(guī)模式和深度思考模式,實(shí)現(xiàn)了性能與響應(yīng)速度的有效平衡:常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。為了讓模型在兩種模式下都具備出色性能,MiniCPM-V 4.5 提出了混合推理的強(qiáng)化學(xué)習(xí)訓(xùn)練方案,在強(qiáng)化學(xué)習(xí)過程中同時(shí)激活常規(guī)和深度思考模式,實(shí)現(xiàn)在相同訓(xùn)練時(shí)長下顯著更強(qiáng)的常規(guī)模式性能和相似的深度思考模式性能。借助 RLPR 技術(shù),MiniCPM-V 4.5 進(jìn)一步從通用域多模態(tài)推理數(shù)據(jù)上獲得高質(zhì)量的獎(jiǎng)勵(lì)信號,以提升廣泛通用領(lǐng)域的推理能力。最終,通過輕量化的 RLAIF-V 訓(xùn)練階段,模型在保持推理能力的同時(shí)顯著降低了幻覺。

    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    多模態(tài)新旗艦MiniCPM-V 4.5:8B 性能超越 72B,高刷視頻理解又準(zhǔn)又快

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說