0
| 本文作者: 鄭佳美 | 2026-04-09 17:56 |
很多人都經(jīng)歷過這樣一種落差。現(xiàn)實(shí)里的空間是立體的,是包圍人的,是可以轉(zhuǎn)身、抬頭、回望的,可一旦被手機(jī)或相機(jī)拍成視頻,世界立刻被壓縮成一個窄窄的取景框。
暴雨來臨前的天空并不只在鏡頭正前方,深夜街區(qū)的壓迫感也不只來自路面,商場中庭、地下車站、展館大廳、建筑內(nèi)部,這些真正讓人產(chǎn)生現(xiàn)場感的東西,往往恰恰存在于鏡頭之外。我們記錄下了事件,卻沒有真正留住空間,保存了畫面,卻沒有保存身處其中的感覺。
這也是今天沉浸式內(nèi)容產(chǎn)業(yè)最真實(shí)的困境之一。大家已經(jīng)越來越明確地意識到,未來的視頻不只是給人看,更是給人進(jìn)入、環(huán)視和停留的。VR、數(shù)字展陳、虛擬空間、文旅體驗(yàn)、游戲場景、線上看房、遠(yuǎn)程教育,這些領(lǐng)域真正需要的都不是普通平面視頻,而是能夠承載空間感、方向感和臨場感的全景內(nèi)容。
問題在于,需求已經(jīng)跑在前面,生產(chǎn)方式卻還停在后面。要拍攝高質(zhì)量 360° 視頻,往往仍要依賴專門設(shè)備、多機(jī)位系統(tǒng)、復(fù)雜拼接流程和高昂成本,真正能穩(wěn)定產(chǎn)出的人和機(jī)構(gòu)始終有限。也就是說,沉浸式內(nèi)容的想象已經(jīng)很豐富,但它的供給能力并沒有跟上。
這也是沉浸式內(nèi)容行業(yè)一直沒有被真正做大的關(guān)鍵原因。市場越來越需要 360° 視頻,VR、虛擬空間、數(shù)字展陳、互動體驗(yàn)都在等更豐富的內(nèi)容供給,可現(xiàn)實(shí)生產(chǎn)仍然依賴昂貴設(shè)備、復(fù)雜流程和高成本制作。大家都知道普通視頻是最豐富、最便宜、最容易獲取的素材,但怎樣把它真正擴(kuò)展成高質(zhì)量全景視頻,始終是行業(yè)里最難啃的問題之一。
正是在這樣的背景下,香港中文大學(xué)的薛天帆團(tuán)隊(duì)提出了 CubeComposer,并在論文《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》中,試圖回答一個真正有行業(yè)分量的問題,也就是普通視角視頻能否被直接擴(kuò)展成原生 4K 的 360° 視頻,而且這種擴(kuò)展不是表面上的放大,不是看起來清楚一點(diǎn),而是能夠在空間連續(xù)性、時間穩(wěn)定性和整體真實(shí)感上都站得住。
這件事可以想得更具體一點(diǎn)。以后一個商場空間的宣傳視頻,也許不必再靠專門全景設(shè)備拍攝;一段城市夜景素材,也不只是單一方向的記錄,而可能被擴(kuò)展成可以環(huán)視的沉浸式場景;很多原本只能平面觀看的內(nèi)容,未來都有機(jī)會變成能讓人重新進(jìn)入其中的空間體驗(yàn)。
CubeComposer 的價值,也正是在這里。它不是單純把模型性能往上推了一點(diǎn),而是在普通視頻如何變成沉浸式內(nèi)容這件事上,給出了一條更接近現(xiàn)實(shí)應(yīng)用的路。

論文鏈接:https://arxiv.org/pdf/2603.04291
研究團(tuán)隊(duì)在兩個數(shù)據(jù)集上對方法進(jìn)行了測試,分別是自建的 4K360Vid 和公開數(shù)據(jù)集 ODV360。評價指標(biāo)包括 LPIPS,數(shù)值越低表示結(jié)果越接近真實(shí);CLIP,數(shù)值越高表示語義一致性越強(qiáng);FID 和 FVD,用于衡量生成質(zhì)量;以及 VBench 中的美觀度、清晰度和一致性。
在 4K360Vid 上,與最強(qiáng)基線 Argus 相比,CubeComposer 的 LPIPS 從 0.4074 降到 0.3696,CLIP 從 0.8858 提高到 0.9234,F(xiàn)ID 從 141 降到 119,F(xiàn)VD 從 4.07 降到 3.90,說明生成結(jié)果在感知質(zhì)量、語義一致性以及視頻穩(wěn)定性上都有明顯提升。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
進(jìn)一步看最關(guān)鍵的 4K 版本,F(xiàn)VD 繼續(xù)降到 2.22,清晰度指標(biāo) I.Q. 提升到 0.56 以上,美觀度指標(biāo) A.Q. 提升到 0.40 以上,這說明分辨率更高的同時,質(zhì)量不但沒有下降,反而進(jìn)一步提升。
在 ODV360 上也呈現(xiàn)出同樣趨勢。LPIPS 大約從 0.43 降到 0.42,CLIP 從大約 0.88 提升到 0.90 以上,F(xiàn)ID 從大約 140 降到 123,F(xiàn)VD 更是從 Argus 的 12 以上降到 CubeComposer 的 3.5。這里尤其值得注意的是,F(xiàn)VD 從 12 降到 3.5,反映出視頻時序穩(wěn)定性和整體連貫性出現(xiàn)了非常顯著的提升。

研究人員還比較了這種方法與超分辨率方案之間的差別。以往常見做法是先生成 1K 視頻,再用 VEnhancer 放大到 2K,但這種方式并沒有真正帶來更高質(zhì)量的結(jié)果。例如 FID 會從 141 上升到 168,指標(biāo)反而變差,視覺效果也更不自然。這說明后處理放大并不等于真正的高分辨率生成,CubeComposer體現(xiàn)的是原生高質(zhì)量,而不是放大之后形成的表面清晰。
除了定量結(jié)果,研究還給出了定性對比。傳統(tǒng)方法普遍存在遠(yuǎn)處細(xì)節(jié)模糊的問題,例如樹木和建筑不夠清晰,運(yùn)動過程中容易出現(xiàn)畫面抖動,拼接區(qū)域會出現(xiàn)斷裂,經(jīng)過超分辨率處理之后還會產(chǎn)生明顯的“涂抹感”。
相比之下,CubeComposer 生成的結(jié)果在遠(yuǎn)景區(qū)域依然保持較高銳度,畫面運(yùn)動更加連續(xù),沒有明顯的拼接縫,整體觀感也更接近真實(shí)的 360° 視頻。這說明這種提升不僅體現(xiàn)在指標(biāo)上,也能在視覺上直接感受到更強(qiáng)的真實(shí)性。

研究團(tuán)隊(duì)還通過消融實(shí)驗(yàn)驗(yàn)證了核心機(jī)制的作用。對于上下文機(jī)制,研究人員比較了三種設(shè)置,分別是完整方法 Ours、去掉未來信息的 w/o future tokens,以及使用全量上下文的 Full tokens。
結(jié)果表明,一旦去掉未來信息,F(xiàn)VD 會從 4.25 上升到 6.03,性能明顯變差;而 Full tokens 的性能雖然與完整方法接近,但計算開銷更高。這說明未來信息對視頻生成非常關(guān)鍵,不過并不需要把所有未來信息全部輸入,只需要保留關(guān)鍵片段,就可以在性能和效率之間取得更好的平衡。

在連續(xù)性設(shè)計,也就是防止拼接痕跡的實(shí)驗(yàn)中,研究人員同樣比較了三種版本,分別是去掉位置編碼、去掉 padding 和 blending,以及完整模型。結(jié)果顯示,只要去掉其中任意一個組件,F(xiàn)ID 就會從 157 上升到 190 以上,同時 LPIPS 也會變差,生成結(jié)果顯得更不真實(shí)。雷峰網(wǎng)
從可視化現(xiàn)象來看,最直接的問題就是邊界位置出現(xiàn)明顯裂縫。由此可以看出,連續(xù)性設(shè)計是 360° 視頻生成中非常關(guān)鍵的一部分,對于保證不同區(qū)域之間的自然銜接具有決定性作用。

在數(shù)據(jù)集構(gòu)建方面,研究團(tuán)隊(duì)首先建立了 4K360Vid 數(shù)據(jù)集。這一數(shù)據(jù)集包含 11,832 段視頻,分辨率均達(dá)到 4K 及以上,來源是在 Argus 數(shù)據(jù)集基礎(chǔ)上進(jìn)一步擴(kuò)展得到。
為提升數(shù)據(jù)可用性,研究人員使用 Qwen-VL 自動生成視頻描述,并對低質(zhì)量視頻進(jìn)行了過濾,因此這個數(shù)據(jù)集具有高質(zhì)量、有語義標(biāo)注、適合生成模型訓(xùn)練等特點(diǎn)。除 4K360Vid 之外,研究中還使用了 ODV360 數(shù)據(jù)集,這是一套標(biāo)準(zhǔn)的 360° 視頻數(shù)據(jù)集,主要用于訓(xùn)練和測試。
在訓(xùn)練設(shè)置方面,研究團(tuán)隊(duì)首先從 360° 視頻中構(gòu)造輸入數(shù)據(jù)。每個訓(xùn)練樣本都經(jīng)歷了幾個步驟:先從原始 360° 視頻中隨機(jī)生成相機(jī)軌跡,再據(jù)此生成普通視角視頻,用來模擬手機(jī)或常規(guī)相機(jī)拍攝的效果,之后再把這種普通視角視頻轉(zhuǎn)換成帶缺失區(qū)域的 360° 視頻。
于是,模型面對的任務(wù)就變成了對缺失區(qū)域進(jìn)行補(bǔ)全,同時還要保證時間上的一致性和空間上的一致性。為了更貼近真實(shí)拍攝場景,研究中將相機(jī)視角范圍設(shè)置為 60° 到 120°,軌跡由 3 到 5 個關(guān)鍵點(diǎn)構(gòu)成。

在訓(xùn)練方法上,研究人員以 Wan 2.2 5B 視頻模型作為基礎(chǔ)模型。在具體訓(xùn)練過程中,系統(tǒng)會隨機(jī)選擇一個時間窗口以及 cubemap 中的某一個面,然后圍繞這一目標(biāo)構(gòu)建上下文信息,上下文由歷史信息、當(dāng)前信息和未來信息共同組成,在這種條件下訓(xùn)練模型去預(yù)測視頻內(nèi)容。
在推理,也就是生成階段,研究團(tuán)隊(duì)采用分步生成策略。首先把整段視頻劃分成多個時間窗口,然后在每個時間窗口內(nèi),按照 F、R、B、L、U、D 六個面的順序逐步生成內(nèi)容。
每一次生成時,系統(tǒng)都會利用上下文信息,尤其是歷史信息和未來信息,最后再把六個面重新拼接起來,形成完整的 360° 視頻。從本質(zhì)上看,這個過程就是把整個球形視頻一點(diǎn)一點(diǎn)補(bǔ)全出來。

在對比實(shí)驗(yàn)設(shè)計上,研究團(tuán)隊(duì)選擇了 Argus、Imagine360 和 ViewPoint 作為主要比較對象。為了保證對比公平,所有方法都使用相同的輸入視頻,并盡量控制在相同視角范圍,也就是 90°×45° 的設(shè)置下進(jìn)行比較。由于 ViewPoint 只能處理 90°×90° 的輸入,因此研究人員針對這一方法單獨(dú)采用了相應(yīng)設(shè)置。
在評測方式上,研究使用了三類指標(biāo)。第一類是參考指標(biāo),包括 LPIPS 和 CLIP;第二類是分布指標(biāo),包括圖像層面的 FID 和視頻層面的 FVD;第三類是主觀質(zhì)量指標(biāo),也就是 VBench,其中包括美觀度 A.Q.、清晰度 I.Q. 和一致性 O.C.。研究人員還特別說明,為了避免比較不公平,每個模型都按照自身支持的分辨率進(jìn)行評測。

回到實(shí)驗(yàn)意義層面,這項(xiàng)研究并不只是把分辨率從 1K 提高到 4K,更重要的是研究團(tuán)隊(duì)真正突破了 360° 視頻生成長期卡住的技術(shù)上限。
過去的擴(kuò)散模型往往要一次性生成整段 360° 視頻,計算量非常大,顯存和算力壓力也極高,所以結(jié)果通常只能停留在較低分辨率,畫面細(xì)節(jié)不足,離真正可用還有明顯距離。
研究人員把原本整體生成的任務(wù)拆開,在空間上分成 6 個面,在時間上分成多個窗口,再按照順序逐步完成生成,這樣一來,原本難以承受的計算壓力就被分散了,高分辨率生成也從理論上的困難問題變成了實(shí)際可落地的方案。也就是說,這項(xiàng)研究的價值不只是生成得更清楚,而是證明了高質(zhì)量 360° 視頻生成這件事終于可以做成。
從研究方法來看,這項(xiàng)工作也提出了一種很有代表性的思路。以往很多生成模型追求一次性把完整內(nèi)容做出來,而研究團(tuán)隊(duì)轉(zhuǎn)向了時空自回歸方式,把視頻生成理解為一個逐步推進(jìn)、不斷補(bǔ)全的過程。
這種變化非常重要,因?yàn)樗f明復(fù)雜的視頻生成任務(wù)未必一定要整體完成,也可以像寫文章、拼地圖一樣,一部分一部分地構(gòu)建起來。這樣的思路對未來的視頻生成、3D 生成,甚至世界模型研究都有啟發(fā)意義,因?yàn)楹芏喔鼜?fù)雜的生成任務(wù),本質(zhì)上都可能受益于這種分步驟、分區(qū)域、分時段的處理方式。
對于 360° 視頻本身,這項(xiàng)研究還真正碰到了最難的幾個核心問題,并且給出了比較完整的解決路徑。普通視頻只能拍到局部視野,所以生成 360° 內(nèi)容時最先遇到的問題就是看不見的區(qū)域怎么補(bǔ)。
不同方向上的內(nèi)容又必須彼此連貫,否則用戶一轉(zhuǎn)頭就會感覺場景是假的。再往下,多個區(qū)域拼接在一起時還很容易在邊界位置出現(xiàn)裂縫、錯位和跳變。研究團(tuán)隊(duì)分別用上下文機(jī)制、未來信息、生成順序設(shè)計和連續(xù)性設(shè)計去處理這些問題,說明這項(xiàng)工作不是只在單一指標(biāo)上提升,而是在朝著真正可觀看、可使用、可沉浸的 360° 視頻邁進(jìn)。
更值得強(qiáng)調(diào)的是,這項(xiàng)研究對普通人的影響其實(shí)很直接。過去如果想做 360° 視頻,通常需要專門的 360° 相機(jī)或者復(fù)雜的多機(jī)位設(shè)備,成本高,操作門檻也高,真正能用的人并不多。現(xiàn)在按照這項(xiàng)研究展示出來的方向,未來普通人拿著手機(jī)、運(yùn)動相機(jī),或者一臺普通攝像設(shè)備拍下來的視角視頻,就有可能被自動擴(kuò)展成 360° 內(nèi)容。
這意味著很多原本只有專業(yè)團(tuán)隊(duì)才能完成的事情,以后普通用戶也可能做到。比如旅行時拍的一段風(fēng)景視頻,未來不只是平面的記錄,而可能被做成可以自由轉(zhuǎn)動視角的沉浸式回憶;家里的日常生活、聚會、演出、婚禮,也有機(jī)會被保存成更有現(xiàn)場感的內(nèi)容;老師、博物館、景區(qū)、創(chuàng)作者和小型工作室,也不一定非要購買昂貴設(shè)備,照樣有可能制作出更有沉浸感的展示材料。
從應(yīng)用層面看,這項(xiàng)研究會影響的不只是實(shí)驗(yàn)室里的模型性能,還會影響普通人接觸內(nèi)容的方式。對于 VR 內(nèi)容制作來說,它降低了制作門檻,讓更多內(nèi)容來源不再依賴專業(yè)拍攝設(shè)備。對于游戲和虛擬場景生成來說,它意味著環(huán)境構(gòu)建可能更快、更便宜。對于數(shù)字孿生和虛擬旅游來說,它意味著現(xiàn)實(shí)世界中的一個普通視頻片段,未來就有機(jī)會被擴(kuò)展成更完整、更可交互的空間體驗(yàn)。
換句話說,這項(xiàng)研究推動的不是單純的算法升級,而是讓沉浸式內(nèi)容從少數(shù)專業(yè)機(jī)構(gòu)手里,逐漸走向更多普通人可用、可看、可創(chuàng)作的方向。
從更深一層看,研究真正重要的地方在于三個關(guān)鍵設(shè)計被結(jié)合到了一起,也就是時空自回歸、包含未來信息的上下文機(jī)制,以及用來降低計算復(fù)雜度的稀疏注意力。單獨(dú)看其中任何一個設(shè)計,都很難徹底解決問題,但三者合在一起,才讓 4K 360° 視頻生成第一次真正具備了現(xiàn)實(shí)可行性。
所以,這項(xiàng)研究的意義不僅在于做出了一個效果更好的模型,更在于它給未來高分辨率沉浸式視頻生成提供了一條清晰可行的技術(shù)路線。
這篇文章的通訊錄作者為薛天帆,目前任職于香港中文大學(xué)信息工程系助理教授。他的研究主要集中在計算攝影、計算機(jī)視覺、機(jī)器學(xué)習(xí)以及計算機(jī)圖形學(xué)等方向,長期關(guān)注如何讓機(jī)器更好地理解和重建視覺世界。
在學(xué)術(shù)經(jīng)歷上,薛天帆本科畢業(yè)于清華大學(xué),隨后在香港中文大學(xué)獲得碩士學(xué)位,并在麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室完成博士研究,師從計算機(jī)視覺領(lǐng)域知名學(xué)者 William T. Freeman。
在進(jìn)入高校任教之前,他曾在 Google Research 工作多年,從事圖像與視頻處理相關(guān)研究,并參與多項(xiàng)實(shí)際落地的影像算法開發(fā),例如移動設(shè)備夜景成像、圖像增強(qiáng)和編輯系統(tǒng)等,這些技術(shù)已經(jīng)被應(yīng)用在真實(shí)產(chǎn)品中。
在科研成果方面,他在計算機(jī)視覺與圖形學(xué)頂級會議和期刊上發(fā)表了大量論文,研究方向覆蓋視頻生成、3D 重建、圖像增強(qiáng)等多個領(lǐng)域,累計被引用超過一萬次。同時,其團(tuán)隊(duì)近年來在多個國際頂級會議中獲得重要認(rèn)可,例如 SIGGRAPH、CVPR、NeurIPS 等會議的論文獎項(xiàng)和展示榮譽(yù),體現(xiàn)出持續(xù)的研究影響力。

參考鏈接:https://tianfan.info/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。