成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    本文作者: 鄭佳美   2026-02-06 19:29 專題:ICLR 2019
    導(dǎo)語:InfLLM-V2:通過最小結(jié)構(gòu)擾動,實(shí)現(xiàn)大模型從短上下文到長上下文的平滑升級。

    在大語言模型快速邁向更強(qiáng)推理能力與更復(fù)雜應(yīng)用場景的過程中,“上下文長度”已經(jīng)從一個(gè)模型配置參數(shù),演變?yōu)橹萍s系統(tǒng)能力上限的關(guān)鍵瓶頸。

    一方面,長文檔理解、跨輪對話記憶、復(fù)雜規(guī)劃與長鏈?zhǔn)酵评淼热蝿?wù),對模型提出了遠(yuǎn)超傳統(tǒng) 4k 或 8k 序列長度的需求;另一方面,主流 Transformer 架構(gòu)中基于全注意力機(jī)制的計(jì)算模式,在序列長度增長時(shí)不可避免地帶來平方級的時(shí)間與顯存開銷,使得“支持更長上下文”在現(xiàn)實(shí)工程中迅速轉(zhuǎn)化為難以承受的成本問題。

    圍繞這一矛盾,稀疏注意力幾乎成為學(xué)術(shù)界與工業(yè)界的共識方向,但隨之而來的,并不是問題的徹底解決,而是一系列新的結(jié)構(gòu)性張力。

    過去數(shù)年中,大量工作嘗試通過引入新的注意力結(jié)構(gòu)、路由機(jī)制或可訓(xùn)練稀疏模塊來緩解計(jì)算壓力。這些方法在理論復(fù)雜度或特定評測上往往表現(xiàn)出色,但在真實(shí)模型訓(xùn)練與部署流程中,卻逐漸暴露出一個(gè)被長期低估的問題:當(dāng)前大語言模型幾乎無一例外遵循“短序列預(yù)訓(xùn)練、長序列微調(diào)”的訓(xùn)練范式,而一些修改模型架構(gòu)的稀疏注意力方案例如NSA,在結(jié)構(gòu)、參數(shù)或輸出形式上與標(biāo)準(zhǔn) dense attention 存在顯著不對齊。

    正是在這一背景下,清華大學(xué)劉知遠(yuǎn)團(tuán)隊(duì)提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。與以往強(qiáng)調(diào)“引入新結(jié)構(gòu)”或“增加可訓(xùn)練模塊”的路徑不同,這項(xiàng)研究將關(guān)注點(diǎn)前移至一個(gè)更基礎(chǔ)的問題:稀疏注意力是否必須以改變模型結(jié)構(gòu)為代價(jià),才能獲得長上下文效率?

    為此研究團(tuán)隊(duì)提出了一種 dense–sparse 可切換的注意力框架,試圖在以原有 dense attention 參數(shù)作為起始點(diǎn),保持輸出形式不變,做到長短文本可同時(shí)訓(xùn)練,且能高效地實(shí)現(xiàn)從短上下文到長上下文的平滑過渡。

    值得一提的是,這項(xiàng)工作并未將重點(diǎn)放在單一指標(biāo)的提升上,而是系統(tǒng)性地從性能保持、訓(xùn)練穩(wěn)定性以及端到端推理效率三個(gè)層面,對這一設(shè)計(jì)思路進(jìn)行了驗(yàn)證,從而為長上下文大語言模型的研究與工程實(shí)踐提供了一條不同于以往的技術(shù)路線。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    論文地址:https://arxiv.org/pdf/2509.24663

    一次「是否真可用」的實(shí)驗(yàn)回答

    整體來看,研究的實(shí)驗(yàn)設(shè)計(jì)并非簡單地驗(yàn)證“InfLLM-V2 是否有效”,而是圍繞三個(gè)逐層遞進(jìn)的核心問題展開:第一,在長上下文任務(wù)中,該方法的性能是否能夠逼近甚至匹配全注意力機(jī)制;第二,在“短序列預(yù)訓(xùn)練 → 長序列微調(diào)”的真實(shí)訓(xùn)練范式下,該方法是否會破壞模型原有能力;第三,在完整推理流程中,稀疏注意力帶來的計(jì)算加速是否能夠轉(zhuǎn)化為端到端的實(shí)際收益。

    圍繞第一個(gè)問題,研究團(tuán)隊(duì)重點(diǎn)評測了多種長輸入理解任務(wù)。在 32k 長度的 RULER 基準(zhǔn)上,InfLLM-V2(Sparse)在絕大多數(shù)子任務(wù)中的表現(xiàn)幾乎與 Full Attention 重合,而訓(xùn)練后稀疏方法(如 InfLLM、MInference)在部分任務(wù)上出現(xiàn)明顯性能斷崖,可訓(xùn)練稀疏注意力方法 NSA 在短序列到長序列遷移的設(shè)定下也顯著落后。

    這一結(jié)果表明,InfLLM-V2 的稀疏策略并未破壞跨塊的長距離依賴建模能力,而其他方法要么在 block 選擇階段失效,要么對原有注意力分布造成了顯著擾動。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    在更貼近真實(shí)應(yīng)用場景的 LongBench 基準(zhǔn)上,這一趨勢表現(xiàn)得更加明顯。由于 LongBench 覆蓋問答、摘要、推理以及多語言等多種真實(shí)任務(wù),其整體難度高于合成數(shù)據(jù)集,但 InfLLM-V2(Sparse)的整體得分依然達(dá)到甚至略微超過 Full Attention。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    相比之下,NSA 的性能明顯低于全注意力,而僅依賴長度外推的 SHORT+YaRN 方法則出現(xiàn)了大幅性能退化。研究人員進(jìn)一步觀察到,InfLLM-V2 的 dense / sparse 可切換機(jī)制在部分任務(wù)中反而降低了注意力噪聲,從而使模型輸出更加穩(wěn)定。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    在 LongPPL 這一用于衡量長序列語言建模能力的困惑度評測中,InfLLM-V2 的表現(xiàn)與 Full Attention 基本一致,而 NSA 的困惑度顯著更高。這一結(jié)果說明,NSA 在短到長遷移訓(xùn)練后并未真正學(xué)會建模長程語言分布,其較低的訓(xùn)練 loss 并未轉(zhuǎn)化為有效的長序列建模能力。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    圍繞第二個(gè)問題,研究團(tuán)隊(duì)還系統(tǒng)評估了長鏈?zhǔn)酵评砣蝿?wù),包括 MATH-500、AIME 以及 LiveCodeBench。這類任務(wù)的共同特點(diǎn)在于輸出序列較長,且中間推理步驟高度依賴早期上下文信息。

    實(shí)驗(yàn)結(jié)果顯示,InfLLM-V2(Sparse)在這些任務(wù)上的表現(xiàn)與 Full Attention 幾乎持平,而 NSA 在所有相關(guān)任務(wù)中均出現(xiàn)了明顯的性能下降。這直接表明,InfLLM-V2 所采用的稀疏注意力機(jī)制不會破壞鏈?zhǔn)剿季S推理過程中所需的“思維連續(xù)性”。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    此外,研究人員還驗(yàn)證了一個(gè)在工程實(shí)踐中尤為關(guān)鍵但常被忽視的問題:在完成長上下文微調(diào)之后,模型是否仍能夠勝任常規(guī)短序列任務(wù)。在 MMLU、CEval、HumanEval 等評測中,InfLLM-V2 切回 dense 模式后依然保持了與 Full Attention 相當(dāng)?shù)男阅埽?NSA 則出現(xiàn)了明顯退化。這一結(jié)果從工程角度表明,InfLLM-V2 不會在適配長上下文能力的過程中破壞模型原有的通用能力。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    最后,針對第三個(gè)問題,研究團(tuán)隊(duì)不僅評估了 attention kernel 層面的理論加速效果,還在完整推理流程中測量了 prefilling(TTFT)和 decoding(TPOT)的端到端效率。

    在可見 token 數(shù)為 6k(|I|=96)的設(shè)置下,InfLLM-V2 實(shí)現(xiàn)了約 2.1× 的 prefilling 加速和 2.3× 的 decoding 加速,而且這一結(jié)果是在前饋網(wǎng)絡(luò)(FFN)部分完全未進(jìn)行優(yōu)化的前提下獲得的,進(jìn)一步說明該稀疏注意力設(shè)計(jì)在真實(shí)推理場景中具有切實(shí)可落地的加速價(jià)值。

    從結(jié)構(gòu)選擇到系統(tǒng)優(yōu)化

    結(jié)果之外,這項(xiàng)研究的實(shí)驗(yàn)實(shí)際上回答了一個(gè)更根本的問題:為什么 InfLLM-V2 的實(shí)驗(yàn)結(jié)果并非“偶然跑出來的”,而是其設(shè)計(jì)邏輯在完整訓(xùn)練流程中被系統(tǒng)性驗(yàn)證的必然結(jié)果。

    研究團(tuán)隊(duì)首先指出,現(xiàn)實(shí)世界中幾乎所有大語言模型都遵循“短序列預(yù)訓(xùn)練、長序列微調(diào)”的通行范式,因此,任何稀疏注意力方案如果在這一過程中大幅改變參數(shù)結(jié)構(gòu)、調(diào)整 attention 的輸出形式,都會直接損傷模型在短序列階段已經(jīng)學(xué)到的表示能力。

    基于這一現(xiàn)實(shí)約束,研究人員明確設(shè)定了 InfLLM-V2 的核心實(shí)驗(yàn)前提:在從 dense attention 過渡到 sparse attention 的過程中,必須保證已有 dense attention 的表達(dá)能力不被破壞。

    在具體訓(xùn)練流程上,研究團(tuán)隊(duì)首先采用完全標(biāo)準(zhǔn)的 Transformer 架構(gòu)對模型進(jìn)行短序列預(yù)訓(xùn)練,模型規(guī)模為 8B 參數(shù),使用 GQA 結(jié)構(gòu),序列長度為 4k。這一階段未引入任何 InfLLM-V2 相關(guān)的稀疏機(jī)制,確保模型能力完全建立在傳統(tǒng)全注意力的基礎(chǔ)之上。雷峰網(wǎng)

    隨后,在進(jìn)入長上下文訓(xùn)練階段時(shí),模型內(nèi)部僅發(fā)生了三項(xiàng)關(guān)鍵變化:當(dāng)序列長度超過預(yù)設(shè)閾值時(shí),attention mask 由稠密形式切換為稀疏形式;Key 與 Value 的投影參數(shù)被完整復(fù)用,不引入新的參數(shù)分支;attention 的輸出形式始終保持為 single-output 結(jié)構(gòu),不使用 gating,也不存在多路 attention 輸出的聚合。

    正是這種“最小結(jié)構(gòu)擾動”的切換方式,使 InfLLM-V2 能夠在適配長上下文的同時(shí),最大限度保留原有模型能力,這也構(gòu)成了其與 NSA 等可訓(xùn)練稀疏注意力方法的本質(zhì)差異。

    相關(guān)實(shí)驗(yàn)進(jìn)一步驗(yàn)證了一個(gè)具有反直覺意味的結(jié)論:可訓(xùn)練的稀疏 attention 并不必然更適合短到長的遷移訓(xùn)練。研究人員的分析表明,NSA 在該設(shè)定下的性能問題并非源自稀疏機(jī)制本身,而是由于其引入了三套 Key–Value 投影、多路 attention 輸出以及基于 gating 的結(jié)果聚合結(jié)構(gòu)。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    這些額外模塊在短序列階段不僅帶來冗余計(jì)算開銷,還會顯著改變注意力分布形態(tài),從而對模型已學(xué)到的表示造成干擾。在實(shí)驗(yàn)結(jié)果中,這一問題具體表現(xiàn)為訓(xùn)練 loss 曲線出現(xiàn)明顯震蕩、長序列困惑度(LongPPL)顯著升高,以及長鏈?zhǔn)酵评砣蝿?wù)性能的系統(tǒng)性下降。

    在工程實(shí)現(xiàn)層面,研究團(tuán)隊(duì)還通過進(jìn)一步的消融分析定位了 InfLLM-V2 的主要性能瓶頸,發(fā)現(xiàn)其集中在 block selection 階段,尤其是 compression attention 的計(jì)算以及 attention score 的顯式物化過程。針對這一問題,研究人員在實(shí)驗(yàn)中引入了 head-group fusion 和 LSE Approximation 等優(yōu)化策略。

    實(shí)驗(yàn)結(jié)果表明,這些改進(jìn)在幾乎不影響模型性能的前提下,可以將 block selection 的計(jì)算時(shí)間降低約 20–30%,從而為后續(xù)端到端推理加速實(shí)驗(yàn)中觀察到的顯著性能提升奠定了關(guān)鍵基礎(chǔ)。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    可「熱升級」的長上下文方案

    從研究意義的角度來看,這項(xiàng)研究對“長上下文大語言模型”這一方向給出了具有方法論價(jià)值的啟示。

    研究團(tuán)隊(duì)明確指出,稀疏注意力機(jī)制未來的發(fā)展重點(diǎn)并不在于設(shè)計(jì)全新的注意力結(jié)構(gòu),而在于如何在不破壞既有 dense attention 結(jié)構(gòu)的前提下實(shí)現(xiàn)高效的稀疏化,這一觀點(diǎn)在一定程度上改變了此前以“結(jié)構(gòu)創(chuàng)新”為主導(dǎo)的研究范式。

    在工程實(shí)踐層面,InfLLM-V2 所具備的一系列特性恰好契合真實(shí)工業(yè)部署的核心需求,包括無需調(diào)整模型參數(shù)規(guī)模、無需維護(hù)多套模型版本、不會犧牲短序列任務(wù)性能,且不依賴重新進(jìn)行大規(guī)模預(yù)訓(xùn)練。這意味著,一個(gè)已經(jīng)部署或訓(xùn)練完成的現(xiàn)有大語言模型,可以在最小代價(jià)下被“熱升級”為具備長上下文處理能力的模型。

    在此基礎(chǔ)上,研究人員也為后續(xù)工作隱含地劃定了若干重要約束:首先,應(yīng)避免引入額外的 attention 分支,以免破壞原有結(jié)構(gòu)的一致性;其次,不應(yīng)采用與 dense attention 輸出形式不兼容的設(shè)計(jì),否則將導(dǎo)致短到長遷移過程中的能力損失;最后,稀疏注意力的設(shè)計(jì)必須充分考慮底層計(jì)算實(shí)現(xiàn)與 kernel 特性,而不僅停留在概念層面的結(jié)構(gòu)優(yōu)雅性。

    正是由于該研究將訓(xùn)練范式、模型結(jié)構(gòu)設(shè)計(jì)以及 CUDA 級實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了統(tǒng)一考量,并系統(tǒng)性地解釋了以往稀疏注意力方法在真實(shí)訓(xùn)練與推理流程中失敗的原因,才使其不僅停留在方法層面的提出,而能夠進(jìn)一步支撐實(shí)際模型的訓(xùn)練與落地應(yīng)用,這也是研究團(tuán)隊(duì)能夠基于該框架直接產(chǎn)出 MiniCPM-4.1 等模型的重要原因。

    InfLLM-V2 主要作者

    趙威霖,他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系自然語言處理實(shí)驗(yàn)室(THUNLP)的博士研究生,研究方向聚焦于高效大語言模型。

    他的研究主要圍繞模型推理與訓(xùn)練加速展開,關(guān)注點(diǎn)并非單純引入新的模型結(jié)構(gòu),而是如何在不破壞標(biāo)準(zhǔn) Transformer 表達(dá)能力與既有模型性能的前提下,實(shí)現(xiàn)對各類場景的有效適配與工程級加速。

    除學(xué)術(shù)研究外,他還長期參與 OpenBMB、MiniCPM 等開源項(xiàng)目,在高性能 attention kernel、推理優(yōu)化與系統(tǒng)實(shí)現(xiàn)方面承擔(dān)關(guān)鍵工程工作,其研究成果發(fā)表于 ICLR、ACL、EMNLP 等國際主流會議。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    參考鏈接:https://weilin-zhao.com

    劉知遠(yuǎn),他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、博士生導(dǎo)師,兼任中國中文信息學(xué)會理事、社會媒體處理專委會副主任等學(xué)術(shù)職務(wù)。

    劉知遠(yuǎn)分別于 2006 年、 2011 年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士、博士學(xué)位,并在清華大學(xué)開展博士后研究,后留校任教。其主要研究方向包括大模型技術(shù)、自然語言處理、知識圖譜與語義計(jì)算以及社會計(jì)算等核心領(lǐng)域。

    劉知遠(yuǎn)在國際主流學(xué)術(shù)會議和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上發(fā)表了 200 余篇論文,其 Google Scholar 引用量超過7萬次,反映出廣泛的學(xué)術(shù)影響力。

    他在多項(xiàng)國家級科研項(xiàng)目中擔(dān)任負(fù)責(zé)人或主要參與者,曾獲教育部自然科學(xué)一等獎(jiǎng)、中國中文信息學(xué)會錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、世界互聯(lián)網(wǎng)領(lǐng)先科技成果獎(jiǎng)、北京市青年教學(xué)名師獎(jiǎng)等多項(xiàng)科研獎(jiǎng)勵(lì),并入選包括國家青年人才計(jì)劃、Elsevier 中國高被引學(xué)者、《麻省理工科技評論》中國區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”及中國科協(xié)青年人才托舉工程等人才項(xiàng)目。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    參考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

    韓旭,他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系助理研究員,也是大模型開源社區(qū) OpenBMB 的核心發(fā)起人與長期負(fù)責(zé)人之一。

    韓旭長期從事大模型技術(shù)、自然語言處理、知識工程等方面的研究,部分研究也涉及并行計(jì)算、異構(gòu)系統(tǒng)優(yōu)化等方向,在國際頂級學(xué)術(shù)會議及期刊發(fā)表論文數(shù)十篇,Google Scholar 他引 1.6 萬余次,曾獲教育部自然科學(xué)一等獎(jiǎng)、世界互聯(lián)網(wǎng)大會領(lǐng)先科技獎(jiǎng),并入選中國計(jì)算機(jī)學(xué)會(CCF)優(yōu)博激勵(lì)計(jì)劃、清華優(yōu)秀博士后、《麻省理工科技評論》中國區(qū)“35 歲以下科技創(chuàng)新 35 人榜單”、及博士后創(chuàng)新人才支持計(jì)劃。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    參考鏈接:https://www.cs.tsinghua.edu.cn/info/1114/6422.htm

    肖朝軍,他是清華大學(xué)計(jì)算機(jī)系博士后,主要研究方向?yàn)楦咝Т竽P图軜?gòu),在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等國際頂級會議及期刊發(fā)表論文多篇,曾獲錢偉長中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng),博士后創(chuàng)新人才支持計(jì)劃,清華大學(xué)水木學(xué)者,清華大學(xué)優(yōu)秀博士論文等榮譽(yù)。

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    參考鏈接:https://xcjthu.github.io/

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    清華劉知遠(yuǎn)團(tuán)隊(duì)論文:最小化結(jié)構(gòu)改動,短文本到長文本絲滑升級 | ICLR 2026

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說