北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

本文作者：鄭佳美

2026-02-12 10:45

專題：ICLR 2019

導(dǎo)語：QDF：以極大似然估計(jì)為起點(diǎn)，結(jié)合元學(xué)習(xí)思想重構(gòu)預(yù)測(cè)模型損失函數(shù)，實(shí)現(xiàn)跨模型泛化。

在多步時(shí)間序列預(yù)測(cè)任務(wù)中，預(yù)測(cè)性能隨時(shí)間步長(zhǎng)迅速退化幾乎成為一種共識(shí)。例如：在氣象預(yù)測(cè)中，短期的溫度變化能夠較為準(zhǔn)確地刻畫，但當(dāng)預(yù)測(cè)跨度擴(kuò)展至數(shù)日甚至一周時(shí)，預(yù)測(cè)誤差就會(huì)逐漸放大，周期與趨勢(shì)結(jié)構(gòu)逐漸偏離真實(shí)軌跡。類似的問題在金融價(jià)格走勢(shì)和電力負(fù)荷預(yù)測(cè)等場(chǎng)景中也廣泛存在。

無論模型結(jié)構(gòu)如何變化，當(dāng)預(yù)測(cè)范圍從短期擴(kuò)展至中長(zhǎng)期時(shí)，誤差積累、趨勢(shì)漂移和結(jié)構(gòu)失真往往不可避免地出現(xiàn)。這類現(xiàn)象在實(shí)踐中被頻繁觀察，卻通常被視為模型表達(dá)能力或依賴建模不足的直接結(jié)果。

然而，與模型結(jié)構(gòu)持續(xù)演進(jìn)形成鮮明對(duì)比的是，多步預(yù)測(cè)在訓(xùn)練階段所使用的損失函數(shù)卻長(zhǎng)期保持固定。大多數(shù)方法仍以逐時(shí)間點(diǎn)的均方誤差（MSE）作為優(yōu)化目標(biāo)，默認(rèn)將未來不同預(yù)測(cè)步視為相互獨(dú)立且重要性一致的預(yù)測(cè)對(duì)象。

但是，多步預(yù)測(cè)并非一組彼此獨(dú)立的回歸任務(wù)，未來不同時(shí)間點(diǎn)之間往往呈現(xiàn)顯著的相關(guān)性；此外，不同預(yù)測(cè)步在優(yōu)化階段的重要性也并不相同。若損失函數(shù)無法顯式刻畫這些結(jié)構(gòu)特征，模型在長(zhǎng)期預(yù)測(cè)中出現(xiàn)系統(tǒng)性偏差便并非偶然，而是訓(xùn)練階段錯(cuò)誤假設(shè)的自然結(jié)果。

正是在這一背景下，林宙辰團(tuán)隊(duì)提出了題為《Quadratic Direct Forecast for Training Multi-step Time-Series Forecast Models》的研究工作。通過重構(gòu)訓(xùn)練目標(biāo)的加權(quán)結(jié)構(gòu)，引入對(duì)預(yù)測(cè)步相關(guān)性與不確定性差異的顯式建模。研究團(tuán)隊(duì)展示了在不改變模型架構(gòu)的前提下，僅通過調(diào)整訓(xùn)練目標(biāo)即可顯著改善多步預(yù)測(cè)性能的可能性，從而為時(shí)間序列預(yù)測(cè)提供了一種從訓(xùn)練機(jī)制層面理解長(zhǎng)期預(yù)測(cè)失效的新視角。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

論文鏈接：https://arxiv.org/pdf/2511.00053v1

問題根源：均方誤差的兩個(gè)先驗(yàn)

在當(dāng)下的時(shí)序預(yù)測(cè)領(lǐng)域，絕大多數(shù)文獻(xiàn)仍以逐時(shí)間點(diǎn)的均方誤差（MSE）作為損失函數(shù)：

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

這個(gè)損失函數(shù)隱含了兩個(gè)先驗(yàn)：1. 未來不同時(shí)間點(diǎn)的預(yù)測(cè)是相互獨(dú)立的；2. 所有預(yù)測(cè)步的重要性是相同的。

然而，現(xiàn)實(shí)并非如此：明天的天氣與后天的天氣存在相關(guān)性，預(yù)測(cè)未來1小時(shí)和1周的難度也完全不同。因此，多步預(yù)測(cè)并非一組獨(dú)立的回歸任務(wù)；不同預(yù)測(cè)步在優(yōu)化階段的重要性也并不相同。如損失函數(shù)無法正確刻畫這些結(jié)構(gòu)特征，模型在長(zhǎng)期預(yù)測(cè)中出現(xiàn)系統(tǒng)性偏差，就并非偶然，而是訓(xùn)練階段錯(cuò)誤假設(shè)的必然結(jié)果。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

研究人員上述兩點(diǎn)先驗(yàn)進(jìn)行了實(shí)驗(yàn)檢驗(yàn)，發(fā)現(xiàn)它們?cè)诙嗖筋A(yù)測(cè)場(chǎng)景中均不成立。

首先，對(duì)標(biāo)簽序列的條件協(xié)方差進(jìn)行了偏相關(guān)分析，以刻畫在控制歷史輸入的影響之后，標(biāo)簽序列不同時(shí)間點(diǎn) $Y_t$ 與 $Y_{t'}$ 之間的直接關(guān)系。實(shí)驗(yàn)結(jié)果顯示，未來時(shí)間點(diǎn)之間存在大量非零偏相關(guān)系數(shù)，否定了均方誤差所隱含的條件獨(dú)立假設(shè)。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

進(jìn)一步，對(duì)標(biāo)簽序列的條件方差進(jìn)行了分析。實(shí)驗(yàn)結(jié)果顯示，不同時(shí)間點(diǎn)的誤差方差存在顯著差異，且隨著預(yù)測(cè)步整體增大，說明將所有預(yù)測(cè)步視為難度一致的任務(wù)并不符合數(shù)據(jù)特性，否定了均方誤差隱含重要性一致假設(shè)。

QDF：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)預(yù)測(cè)損失

針對(duì)MSE存在的兩個(gè)不合理先驗(yàn)，林宙辰教授團(tuán)隊(duì)提出了QDF（Quadratic Direct Forecast）方法，核心創(chuàng)新在于：不再將損失函數(shù)視為固定不變的優(yōu)化目標(biāo)，而是將其本身作為可學(xué)習(xí)的對(duì)象，從而自動(dòng)“發(fā)現(xiàn)”最適合特定任務(wù)數(shù)據(jù)結(jié)構(gòu)的損失表述。

從概率建模的視角出發(fā)，理想的損失函數(shù)應(yīng)來源于負(fù)對(duì)數(shù)似然。在高斯誤差假設(shè)下。在高斯誤差假設(shè)下，給定歷史序列 $\mathbf{x}$，標(biāo)簽序列 $$\mathbf{y}\in\mathbb{R}^\mathrm{T\times 1}$$ 的條件分布為多元高斯分布，其負(fù)對(duì)數(shù)似然（忽略常數(shù)項(xiàng)）可表示為：

$$\mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x},\mathbf{y};g_\theta) = (\mathbf{y} - g_\theta(\mathbf{x}))^\top \boldsymbol{\bar{\Sigma}} (\mathbf{y} - g_\theta(\mathbf{x}))$$

其中，$\boldsymbol{\Sigma} \in \mathbb{R}^{T \times T}$是標(biāo)簽序列的條件協(xié)方差矩陣，$T$ 為預(yù)測(cè)步長(zhǎng)，$\boldsymbol{\bar{\Sigma}} = \boldsymbol{\Sigma}^{-1}$為該二次型的權(quán)重矩陣。在該二次型中：權(quán)重矩陣的非對(duì)角元素刻畫了未來不同時(shí)間點(diǎn)之間的條件相關(guān)性，從而能夠顯式建模標(biāo)簽自相關(guān)效應(yīng)，打破了MSE所隱含的條件獨(dú)立假設(shè)；權(quán)重矩陣的對(duì)角元素反映了不同預(yù)測(cè)步的不確定性差異，使得模型能夠?yàn)椴煌y度的預(yù)測(cè)任務(wù)分配異構(gòu)權(quán)重，打破了MSE所隱含的重要性一致假設(shè)。雷峰網(wǎng)

因此，該二次型損失函數(shù)在理論上能夠同時(shí)解決傳統(tǒng)MSE損失在多步預(yù)測(cè)場(chǎng)景下的兩個(gè)結(jié)構(gòu)性偏差問題。

然而，在實(shí)際預(yù)測(cè)任務(wù)中，權(quán)重矩陣$\boldsymbol{\bar{\Sigma}}$難以估計(jì)。為解決這一問題，研究團(tuán)隊(duì)受到元學(xué)習(xí)啟發(fā)，將$\boldsymbol{\bar{\Sigma}}$作為可學(xué)習(xí)的對(duì)象，通過一個(gè)雙層優(yōu)化機(jī)制將$\boldsymbol{\bar{\Sigma}}$從數(shù)據(jù)中“學(xué)”出來：

$$\min_{\boldsymbol{\Sigma} \succeq 0} \mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x}_{\text{out}}, \mathbf{y}_{\text{out}};g_{\theta^*}) \quad \text{s.t.} \quad \theta^* = \arg\min_{\theta} \mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x}_{\text{in}}, \mathbf{y}_{\text{in}};g_\theta)$$

該雙層優(yōu)化問題的求解過程包括兩個(gè)階段。首先，在給定$\boldsymbol{\Sigma}$ 的條件下，通過在元訓(xùn)練集$(\mathbf{x}_{\text{in}}, \mathbf{y}_{\text{in}})$上最小化損失函數(shù)$\mathcal{L}_{\boldsymbol{\Sigma}}$來更新模型參數(shù)$\theta$。接著，依據(jù)模型在元驗(yàn)證集$(\mathbf{x}_{\text{out}}, \mathbf{y}_{\text{out}})$上的預(yù)測(cè)誤差，反向傳播更新$\boldsymbol{\Sigma}$。其中，元訓(xùn)練集和元驗(yàn)證集來自對(duì)訓(xùn)練集的不同切片。

這種雙層設(shè)計(jì)的核心優(yōu)勢(shì)在于：訓(xùn)練目標(biāo)的優(yōu)劣不再由擬合優(yōu)度決定，而是由元驗(yàn)證集上的泛化性能來刻畫。通過多次數(shù)據(jù)拆分與迭代更新，算法得以學(xué)習(xí)到在不同時(shí)間區(qū)間內(nèi)一致的誤差相關(guān)模式，從而形成穩(wěn)定且可泛化的訓(xùn)練目標(biāo)。

在大量實(shí)驗(yàn)中，一致驗(yàn)證優(yōu)勢(shì)

論文首先將 QDF 與現(xiàn)有損失函數(shù)進(jìn)行了比較，包括通過標(biāo)簽變換削弱標(biāo)簽相關(guān)性的 FreDF 和 Time-o1。這些方法相較于均方誤差均能帶來一定的性能提升，但在穩(wěn)定性和性能上限方面仍不及 QDF。原因在于這些方法僅部分處理標(biāo)簽之間的相關(guān)性，仍隱含地假設(shè)剩余誤差可通過均勻加權(quán)方式進(jìn)行優(yōu)化，而 QDF 同時(shí)建模了標(biāo)簽間的相關(guān)性以及不同預(yù)測(cè)步的不確定性，并通過元學(xué)習(xí)得到最優(yōu)加權(quán)權(quán)重，徹底解決了損失函數(shù)中可能存在的偏差。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

其次，研究人員通過消融實(shí)驗(yàn)對(duì)上述兩個(gè)關(guān)鍵因素進(jìn)行了驗(yàn)證。實(shí)驗(yàn)分別考察僅建模不同預(yù)測(cè)步權(quán)重、僅建模時(shí)間相關(guān)性以及同時(shí)建模二者的情形。結(jié)果顯示，兩種因素單獨(dú)引入時(shí)均能帶來性能提升，而二者同時(shí)作用時(shí)效果最為顯著。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

研究人員也對(duì)模型輸出的預(yù)測(cè)序列進(jìn)行了可視化分析。結(jié)果表明，基于均方誤差訓(xùn)練的模型在周期性時(shí)間序列中普遍存在振幅壓縮、峰值被抹平以及拐點(diǎn)響應(yīng)滯后的現(xiàn)象。引入QDF后，模型在峰值位置、周期相位以及長(zhǎng)期趨勢(shì)穩(wěn)定性方面均表現(xiàn)出更高一致性，時(shí)間結(jié)構(gòu)得到了更完整的保留，說明QDF有效訓(xùn)練模型尊重未來不同時(shí)間點(diǎn)之間的整體關(guān)系。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

一次針對(duì)均方誤差的系統(tǒng)性審判

從研究意義的角度來看，這項(xiàng)研究首先推翻了一個(gè)在時(shí)間序列領(lǐng)域長(zhǎng)期被默認(rèn)接受的假設(shè)：多步預(yù)測(cè)可以被視為多個(gè)相互獨(dú)立且等權(quán)重的回歸任務(wù)。這一假設(shè)在實(shí)踐中被廣泛采用，卻缺乏系統(tǒng)性的經(jīng)驗(yàn)驗(yàn)證。研究通過嚴(yán)格的概率建模分析與全面的實(shí)證檢驗(yàn)表明，**這一前提假設(shè)在多步預(yù)測(cè)場(chǎng)景中并不成立**。

在此基礎(chǔ)上，研究進(jìn)一步提出了一種新穎的研究方法：將損失函數(shù)本身視為可以被學(xué)習(xí)的對(duì)象。不同于傳統(tǒng)通過超參數(shù)調(diào)節(jié)或啟發(fā)式設(shè)計(jì)的方式，該研究通過引入結(jié)構(gòu)化的權(quán)重參數(shù)來顯式建模標(biāo)簽間的關(guān)聯(lián)性和不同預(yù)測(cè)步的重要性差異，并通過雙層優(yōu)化機(jī)制，直接利用未見數(shù)據(jù)上的泛化誤差學(xué)習(xí)權(quán)重參數(shù)。這種設(shè)計(jì)使得損失函數(shù)的形式能夠根據(jù)數(shù)據(jù)特性自適應(yīng)地調(diào)整，從而形成既符合統(tǒng)計(jì)建模原理又具有良好泛化能力的訓(xùn)練目標(biāo)。

對(duì)于后續(xù)研究而言，該工作所提供的啟示并不局限于具體方法本身，而體現(xiàn)在更一般的研究范式上。其一，研究強(qiáng)調(diào)了對(duì)領(lǐng)域內(nèi)默認(rèn)假設(shè)保持持續(xù)審視的重要性；其二，展示了如何從統(tǒng)計(jì)建模出發(fā)反推優(yōu)化目標(biāo)的合理形式；其三，為元學(xué)習(xí)思想在時(shí)間序列預(yù)測(cè)領(lǐng)域的應(yīng)用和發(fā)展提供了理論和實(shí)踐參考，展示了如何將元學(xué)習(xí)的思想與領(lǐng)域特定的統(tǒng)計(jì)方法有機(jī)結(jié)合。

作者信息

論文第一作者王浩，現(xiàn)為浙江大學(xué)控制學(xué)院博士研究生，研究方向聚焦于因果推斷、多任務(wù)學(xué)習(xí)技術(shù)及其在大語言模型中的應(yīng)用。2022 年- 2023 年，他曾在螞蟻金服、微軟亞洲研究院科研實(shí)習(xí)，從事推薦系統(tǒng)理論研究。2025 年起，他在小紅書參加 RedStar 實(shí)習(xí)項(xiàng)目，進(jìn)行大語言模型、可信獎(jiǎng)勵(lì)模型領(lǐng)域的研究工作。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026

論文通訊作者林宙辰，現(xiàn)任北京大學(xué)智能學(xué)院、通用人工智能全國(guó)重點(diǎn)實(shí)驗(yàn)室教授。他的研究領(lǐng)域包括機(jī)器學(xué)習(xí)和數(shù)值優(yōu)化。他已發(fā)表論文360余篇，谷歌學(xué)術(shù)引用超過42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG會(huì)士，多次擔(dān)任CVPR、NeurIPS、ICML等會(huì)議的Senior Area Chair，現(xiàn)任ICML Board Member。

北大林宙辰團(tuán)隊(duì)論文：從數(shù)據(jù)中自適應(yīng)學(xué)習(xí)時(shí)序預(yù)測(cè)損失丨ICLR 2026