中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

本文作者：鄭佳美

2026-03-30 14:53

導(dǎo)語(yǔ)：ProPhy：一種讓視頻生成同時(shí)具備視覺(jué)真實(shí)和物理合理能力的方法。

過(guò)去兩年，視頻生成模型的發(fā)展呈現(xiàn)出一個(gè)非常明顯的趨勢(shì)：視覺(jué)質(zhì)量在快速逼近真實(shí)世界。從最初的模糊片段，到如今可以生成具有復(fù)雜場(chǎng)景、多主體交互甚至長(zhǎng)時(shí)序敘事的視頻，模型在紋理、光影和語(yǔ)義一致性方面已經(jīng)取得了長(zhǎng)足進(jìn)步。一些系統(tǒng)甚至被稱為通用世界模型的雛形，試圖通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式重建現(xiàn)實(shí)世界的運(yùn)行規(guī)律。

但隨著分辨率和時(shí)長(zhǎng)的提升，一個(gè)更深層的問(wèn)題開(kāi)始暴露出來(lái)：模型在視覺(jué)上越來(lái)越真實(shí)，卻在物理上仍然不可信。也就是說(shuō)，模型擅長(zhǎng)生成看起來(lái)像真實(shí)世界的畫(huà)面，卻并不真正理解現(xiàn)實(shí)世界是如何運(yùn)作的。這種差距在動(dòng)態(tài)場(chǎng)景中尤為明顯。當(dāng)場(chǎng)景涉及接觸、受力、流動(dòng)或能量傳遞時(shí)，模型往往無(wú)法維持一致的物理邏輯。

例如，在一些生成視頻中，可以觀察到物體在移動(dòng)過(guò)程中缺乏連續(xù)的動(dòng)力來(lái)源，運(yùn)動(dòng)像被“直接插值”出來(lái)；兩個(gè)物體發(fā)生交互時(shí)，接觸關(guān)系模糊甚至消失，表現(xiàn)為輕微重疊或延遲響應(yīng)；再比如布料、煙霧或水流的變化往往只遵循外觀模式，而不是環(huán)境約束，導(dǎo)致整體行為缺乏穩(wěn)定性。

這些問(wèn)題的本質(zhì)并不是數(shù)據(jù)不足，而是模型缺少對(duì)物理因果關(guān)系和空間約束的建模能力。如何讓視頻生成模型從“視覺(jué)擬合”走向“物理一致”，成為當(dāng)前領(lǐng)域中的關(guān)鍵問(wèn)題之一。

在這樣的背景下，中山大學(xué)梁小丹團(tuán)隊(duì)提出了《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》，嘗試系統(tǒng)性地解決這一問(wèn)題。

與以往方法不同，這項(xiàng)研究不再依賴單一層面的物理提示，而是通過(guò)分層建模和逐步對(duì)齊的方式，將物理信息從全局語(yǔ)義逐漸細(xì)化到局部空間，使模型能夠在不同區(qū)域響應(yīng)不同的物理規(guī)律。

更重要的是，研究團(tuán)隊(duì)引入視覺(jué)語(yǔ)言模型作為中介，將其在空間理解上的優(yōu)勢(shì)轉(zhuǎn)化為生成模型的監(jiān)督信號(hào)，從而彌補(bǔ)生成模型在物理定位能力上的不足。這種設(shè)計(jì)使模型不僅能夠判斷發(fā)生了什么，還能夠理解發(fā)生在什么位置，并在時(shí)間上保持一致的物理行為。

從更宏觀的角度來(lái)看，這項(xiàng)工作所指向的并不僅僅是視頻生成質(zhì)量的提升，而是一個(gè)更深層的轉(zhuǎn)變：生成模型正在從再現(xiàn)視覺(jué)現(xiàn)象，逐步邁向?qū)κ澜邕\(yùn)行機(jī)制的近似建模。

這一轉(zhuǎn)變對(duì)于未來(lái)的智能系統(tǒng)具有基礎(chǔ)性意義，因?yàn)橹挥挟?dāng)模型能夠在動(dòng)態(tài)過(guò)程中遵循基本規(guī)律時(shí)，才有可能被用于更復(fù)雜的任務(wù)，例如交互式環(huán)境構(gòu)建、真實(shí)場(chǎng)景仿真以及決策系統(tǒng)訓(xùn)練。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

論文地址：https://arxiv.org/pdf/2512.05564

從「看起來(lái)真實(shí)」到「物理上正確」

整體來(lái)看，研究結(jié)果主要圍繞一個(gè)核心目標(biāo)展開(kāi)，也就是讓生成的視頻不僅看起來(lái)真實(shí)，而且能夠符合物理規(guī)律。研究團(tuán)隊(duì)并不是用普通的視頻生成評(píng)測(cè)方式，而是專門采用了一個(gè)面向物理合理性的評(píng)測(cè)體系 VideoPhy2。

在這個(gè)評(píng)測(cè)中，輸入是一段文本描述，例如“球撞擊地面揚(yáng)起灰塵”，模型需要根據(jù)文本生成視頻，然后由評(píng)測(cè)系統(tǒng)判斷兩個(gè)問(wèn)題：第一，生成的視頻是否符合物理常識(shí)；第二，視頻內(nèi)容是否符合文本描述。

在這一評(píng)測(cè)體系中，有三個(gè)非常關(guān)鍵的指標(biāo)。第一個(gè)是 PC，也就是 Physical Commonsense，用來(lái)衡量視頻是否違反基本物理規(guī)律，比如重力、流體運(yùn)動(dòng)或者碰撞行為。第二個(gè)是 SA，也就是 Semantic Adherence，用來(lái)判斷視頻是否正確完成了文本描述中的語(yǔ)義任務(wù)，例如是否真的發(fā)生了“倒水”這一行為。第三個(gè)是 Joint，表示同時(shí)滿足 PC 和 SA，也就是既符合物理，又符合語(yǔ)義，這是評(píng)估模型生成的視頻是否符合物理現(xiàn)象的綜合指標(biāo)。

在具體實(shí)驗(yàn)結(jié)果方面，研究人員首先在 Wan2.1（1.3B）模型上進(jìn)行了對(duì)比。原始模型的 PC 為 57.8，SA 為 30.0，Joint 為 24.8；加入 ProPhy 之后，PC 提升到 65.0，SA 提升到 32.0，Joint 提升到 26.5。可以看到，PC 提升了 7.2，這是最顯著的變化，說(shuō)明模型明顯減少了違反物理規(guī)律的情況，例如更少出現(xiàn)水向上流動(dòng)或者物體發(fā)生穿透的現(xiàn)象。

相比之下，SA 只提升了 2，這說(shuō)明 ProPhy 的主要作用并不在于提升對(duì)文本的理解能力，而是在于增強(qiáng)物理正確性。Joint 只提升了 1.7，原因在于 Joint 必須同時(shí)滿足 PC 和 SA，而 SA 本身數(shù)值較低，限制了整體提升空間。

在更強(qiáng)的模型 CogVideoX 上，結(jié)果同樣顯著。原始模型的 Joint 約為 22.3，加入 ProPhy 后提升到約 26.7，提升幅度約為 4.4。這個(gè)結(jié)果不僅超過(guò)了 WISA，也超過(guò)了 VideoREPA，說(shuō)明這種方法能夠同時(shí)提升參數(shù)量不同的視頻生成模型的物理生成能力。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

為了進(jìn)一步驗(yàn)證方法在復(fù)雜場(chǎng)景中的表現(xiàn)，研究人員還在 HARD 子集上進(jìn)行了測(cè)試。這一子集包含多物體交互、高速運(yùn)動(dòng)以及復(fù)雜物理過(guò)程等更具挑戰(zhàn)性的情況。在 Wan2.1 上，Joint 從 5.6 提升到 7.2；在 CogVideoX 上，Joint 從 5.0 提升到 6.1。雖然這些數(shù)值整體較低，但由于任務(wù)本身難度極高，這種提升具有重要意義，說(shuō)明 ProPhy 在真正需要物理推理的場(chǎng)景中更有效。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

除了物理合理性，研究人員還使用VBench 評(píng)測(cè)體系評(píng)估了生成視頻的質(zhì)量。結(jié)果顯示，動(dòng)態(tài)程度從 46.8 提升到 72，總體質(zhì)量評(píng)分從 76.8 提升到 81。這一現(xiàn)象說(shuō)明物理建模在提升視頻動(dòng)態(tài)表現(xiàn)的同時(shí)，略微提升了視頻的質(zhì)量。深層原因在于，動(dòng)態(tài)如果不符合物理規(guī)律，會(huì)直接導(dǎo)致視覺(jué)不自然，例如水流錯(cuò)誤會(huì)顯得不真實(shí)，碰撞錯(cuò)誤會(huì)讓動(dòng)作顯得不連貫。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

在定性結(jié)果方面，研究通過(guò)多個(gè)案例展示模型行為的變化。在揚(yáng)塵場(chǎng)景中，傳統(tǒng)模型會(huì)在球還未落地時(shí)就產(chǎn)生灰塵，而 ProPhy 只有在接觸地面之后才產(chǎn)生揚(yáng)塵，這表明模型學(xué)會(huì)了“接觸導(dǎo)致結(jié)果”的因果關(guān)系。

在碰撞場(chǎng)景中，傳統(tǒng)模型可能出現(xiàn)球體穿透或靜止不動(dòng)，而 ProPhy 能夠表現(xiàn)出動(dòng)量傳遞，小球在被撞擊后開(kāi)始運(yùn)動(dòng)，說(shuō)明模型隱式地學(xué)習(xí)到了動(dòng)量守恒。在流體場(chǎng)景中，傳統(tǒng)模型可能生成違反約束的水流，而 ProPhy 的流動(dòng)表現(xiàn)更加合理。

綜合來(lái)看，這些結(jié)果說(shuō)明模型不再只是依賴圖像模式進(jìn)行生成，而是開(kāi)始遵循一定的物理規(guī)則，表現(xiàn)出對(duì)物理因果關(guān)系的理解能力。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

一條從語(yǔ)義到空間的物理建模鏈路

實(shí)驗(yàn)經(jīng)過(guò)可以理解為一個(gè)從文本到物理再到視頻逐步細(xì)化的過(guò)程。模型首先接收文本 prompt 作為輸入，隨后依次經(jīng)歷三個(gè)關(guān)鍵步驟：提取物理信息，將這些物理信息注入到視頻生成過(guò)程中，并在生成過(guò)程中逐層進(jìn)行細(xì)化，使物理規(guī)律逐漸融入到視頻內(nèi)容中。

在第一階段，研究團(tuán)隊(duì)設(shè)計(jì)了語(yǔ)義級(jí)物理模塊 SEB，其核心作用是從文本中提取視頻涉及的物理現(xiàn)象，也就是判斷“這個(gè)視頻涉及哪些物理過(guò)程”。在內(nèi)部結(jié)構(gòu)上，這一模塊包含 32 個(gè)物理專家，每個(gè)專家對(duì)應(yīng)一種不同的物理模式，例如燃燒、流體或碰撞等。

SEB 中還存在一個(gè)路由器，用于為每個(gè)特定領(lǐng)域的隱式物理專家分配權(quán)重。通過(guò)這種方式，模型可以得到一個(gè)加權(quán)組合的結(jié)果，也就是一個(gè)“混合的物理先驗(yàn)”。從本質(zhì)上看，SEB 可以理解為一個(gè)物理分類器與權(quán)重分配器的結(jié)合體，它負(fù)責(zé)在全局層面確定視頻的物理屬性。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

在第二階段，研究人員引入了細(xì)粒度模塊 REB，用于進(jìn)行 token 級(jí)別的物理建模。引入這一層的原因在于，同一個(gè)視頻中往往存在多個(gè)不同的物理現(xiàn)象，例如火焰可能出現(xiàn)在畫(huà)面左側(cè)，而水流可能出現(xiàn)在右側(cè)，因此需要對(duì)空間進(jìn)行區(qū)分。REB的具體作用是針對(duì)每一個(gè) token 判斷其對(duì)應(yīng)的物理現(xiàn)象。

在實(shí)現(xiàn)上，與 SEB 不同的是，每個(gè) token 會(huì)從中選擇 top-k 個(gè)專家進(jìn)行計(jì)算，從而得到更精細(xì)的物理表達(dá)。最終輸出的是一個(gè)空間上的物理分布圖，也就是每個(gè)位置對(duì)應(yīng)哪種物理現(xiàn)象。從本質(zhì)上看，REB可以理解為一個(gè)基于VLM的物理分割器，使模型能夠在空間上區(qū)分不同物理過(guò)程。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

在整個(gè)方法中，最關(guān)鍵的一部分是引入了 VLM 監(jiān)督機(jī)制。研究人員發(fā)現(xiàn)，視頻生成模型在識(shí)別“物理現(xiàn)象發(fā)生在哪里”這一問(wèn)題上能力較弱，而視覺(jué)語(yǔ)言模型在這一任務(wù)上表現(xiàn)更強(qiáng)。因此，研究團(tuán)隊(duì)利用 VLM 來(lái)為模型提供監(jiān)督信號(hào)。

具體流程分為多個(gè)步驟：首先向 VLM 提問(wèn)“視頻中的燃燒在哪里”，然后得到文本 token 以及與之對(duì)應(yīng)的視覺(jué) token；接著通過(guò)計(jì)算注意力得到燃燒區(qū)域；隨后再詢問(wèn)“背景是什么”，得到背景區(qū)域；最后將兩者相減，從而得到純粹的物理區(qū)域。

通過(guò)這一過(guò)程，可以得到一個(gè)矩陣，其中每個(gè) token 對(duì)應(yīng)某種物理現(xiàn)象的概率分布。這個(gè)結(jié)果被用來(lái)訓(xùn)練 REB，使其逐漸學(xué)會(huì)識(shí)別物理現(xiàn)象在空間中的分布位置，也就是學(xué)會(huì)“物理在哪里”。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

在訓(xùn)練過(guò)程中，研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)目標(biāo)函數(shù)來(lái)約束模型行為。第一個(gè)是 Lcoarse，對(duì)應(yīng)語(yǔ)義級(jí)對(duì)齊，其目標(biāo)是讓屬于同一物理類別的樣本具有相似表示，而不同類別之間能夠被區(qū)分開(kāi)。第二個(gè)是 Lfine-align，對(duì)應(yīng)空間級(jí)對(duì)齊，其目標(biāo)是讓模型在 token 層面的預(yù)測(cè)盡可能接近 VLM 提供的標(biāo)注。第三個(gè)是 Lfine-balance，其目標(biāo)是保證所有專家都能被有效使用，避免只有少數(shù)專家被頻繁激活。三者的權(quán)重分別設(shè)置為 0.1、0.02 和 0.01，從而在訓(xùn)練中形成平衡。雷峰網(wǎng)

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

為了驗(yàn)證這些設(shè)計(jì)的必要性，研究人員進(jìn)行了消融實(shí)驗(yàn)。結(jié)果表明，如果去掉 REB，模型將失去空間層面的物理建模能力；如果去掉 SEB，模型的物理分類能力會(huì)明顯下降；如果去掉對(duì)齊機(jī)制，模型訓(xùn)練會(huì)變得不穩(wěn)定。綜合來(lái)看，這三個(gè)部分是相互遞進(jìn)的，缺少任何一部分都會(huì)導(dǎo)致性能下降。

最后，研究團(tuán)隊(duì)還分析了不同專家所學(xué)習(xí)到的物理知識(shí)之間的關(guān)系。通過(guò)計(jì)算專家之間的相關(guān)性發(fā)現(xiàn)，與燃燒相關(guān)的專家和爆炸相關(guān)的專家之間具有較高相關(guān)性，而爆炸與折射之間的相關(guān)性較低。

這一現(xiàn)象說(shuō)明模型不僅學(xué)會(huì)了單一的物理現(xiàn)象，還捕捉到了不同物理過(guò)程之間的結(jié)構(gòu)關(guān)系，從而形成了一種更加系統(tǒng)化的物理知識(shí)表示。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

面向動(dòng)態(tài)世界的一種建模嘗試

整體來(lái)看，這項(xiàng)研究實(shí)驗(yàn)意義不僅體現(xiàn)在方法層面的改進(jìn)，還反映了視頻生成技術(shù)發(fā)展方向的一次重要轉(zhuǎn)變。

以往的視頻生成模型主要依賴數(shù)據(jù)中出現(xiàn)頻率較高的視覺(jué)模式進(jìn)行學(xué)習(xí)，本質(zhì)上是在回答畫(huà)面長(zhǎng)什么樣，而不是解釋為什么會(huì)出現(xiàn)這樣的變化。這種方式雖然可以生成外觀逼真的視頻，但缺乏對(duì)物理規(guī)律和因果關(guān)系的理解，因此經(jīng)常出現(xiàn)看似合理卻違背現(xiàn)實(shí)規(guī)律的現(xiàn)象。

圍繞這一問(wèn)題，研究團(tuán)隊(duì)提出了幾個(gè)關(guān)鍵突破。首先，將物理從隱式的統(tǒng)計(jì)規(guī)律轉(zhuǎn)變?yōu)轱@式的知識(shí)結(jié)構(gòu)，通過(guò)引入物理專家，使模型能夠區(qū)分不同類型的物理過(guò)程，例如燃燒、流體和碰撞，從而避免將所有現(xiàn)象混合在一起進(jìn)行學(xué)習(xí)。

其次，將物理建模從整體層面推進(jìn)到空間層面，使模型能夠在同一視頻中區(qū)分不同區(qū)域的物理現(xiàn)象，例如某一位置發(fā)生燃燒，而另一位置存在流體運(yùn)動(dòng)，這種空間區(qū)分能力顯著提高了生成結(jié)果的合理性。

再次，引入視覺(jué)語(yǔ)言模型作為教師角色，利用其更強(qiáng)的理解能力為生成模型提供物理定位信息，使模型不僅知道發(fā)生了什么，還能夠知道發(fā)生在什么位置，這種方式形成了一種新的訓(xùn)練思路，也就是用理解能力更強(qiáng)的模型去指導(dǎo)生成模型學(xué)習(xí)更復(fù)雜的結(jié)構(gòu)。

從更深層的角度來(lái)看，這項(xiàng)研究推動(dòng)人工智能從單純的視覺(jué)生成向世界模擬邁進(jìn)。隨著物理建模能力的加入，模型開(kāi)始具備一定程度的因果理解能力，能夠在生成過(guò)程中遵循基本約束并體現(xiàn)出規(guī)律性。這種能力對(duì)于未來(lái)技術(shù)的發(fā)展具有重要意義，例如在機(jī)器人訓(xùn)練中，可以通過(guò)生成更符合物理規(guī)律的環(huán)境來(lái)提高學(xué)習(xí)效果，在自動(dòng)駕駛領(lǐng)域，可以更真實(shí)地模擬復(fù)雜交通場(chǎng)景，在仿真系統(tǒng)中，可以用于構(gòu)建更加可靠的虛擬測(cè)試環(huán)境。

從普通人的角度來(lái)看，這項(xiàng)研究的影響也會(huì)逐漸顯現(xiàn)。在內(nèi)容創(chuàng)作方面，視頻生成工具將不再只是生成好看的畫(huà)面，而是能夠生成更加真實(shí)、更加自然的動(dòng)態(tài)內(nèi)容，減少違和感，從而提升影視制作、短視頻創(chuàng)作和游戲開(kāi)發(fā)的效率與質(zhì)量。

在教育領(lǐng)域，可以利用這種技術(shù)生成更直觀的物理演示，幫助理解復(fù)雜的現(xiàn)象，例如碰撞過(guò)程或流體變化。在日常應(yīng)用中，更真實(shí)的虛擬場(chǎng)景也意味著更可靠的數(shù)字孿生環(huán)境，例如用于訓(xùn)練或模擬現(xiàn)實(shí)任務(wù)。

與此同時(shí)，研究人員也指出了當(dāng)前方法的局限性。一方面，物理監(jiān)督依賴視覺(jué)語(yǔ)言模型的標(biāo)注，而這種標(biāo)注不可避免地存在噪聲，可能影響學(xué)習(xí)效果；另一方面，模型目前主要學(xué)習(xí)的是物理現(xiàn)象的表層模式，而不是基于嚴(yán)格方程的物理機(jī)制，因此仍然屬于近似模擬。

基于這些問(wèn)題，未來(lái)的研究方向包括引入更加嚴(yán)格的物理方程以及構(gòu)建更強(qiáng)的因果建模能力，使模型能夠從經(jīng)驗(yàn)式學(xué)習(xí)進(jìn)一步走向更加可靠的物理推理，從而提升對(duì)真實(shí)世界的理解與模擬水平。

ProPhy 背后的科研工作者

王子俊，中山大學(xué)智能工程學(xué)院 2025 級(jí)博士研究生，本科畢業(yè)于中山大學(xué)智能工程學(xué)院，師從梁小丹教授。他的研究方向是視頻生成和世界模型。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

胡攀文，現(xiàn)在是穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）計(jì)算機(jī)視覺(jué)系博士后，主要研究方向?yàn)閭€(gè)性化和視頻生成，世界模型。分別于 2023 年和 2018 年從香港中文大學(xué)（深圳）和中國(guó)科學(xué)技術(shù)大學(xué)獲得博士和碩士學(xué)位。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

黎漢匯, 分別于 2012 年和 2018 年獲得中山大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)士學(xué)位和計(jì)算機(jī)軟件與理論博士學(xué)位。他目前是中山大學(xué)深圳校區(qū)的特聘研究員。此前，他于 2019 年至 2021 年在新加坡南洋理工大學(xué)擔(dān)任研究員。他的研究方向包括視覺(jué)媒體分析與推理。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

梁小丹是中山大學(xué)深圳校區(qū)的教授，同時(shí)也是穆罕默德·本·扎耶德人工智能大學(xué)（MBZUAI）計(jì)算機(jī)視覺(jué)系的副教授。她曾是卡內(nèi)基梅隆大學(xué)的項(xiàng)目科學(xué)家，與邢教授合作。

她在視覺(jué)語(yǔ)言理解與生成及其在具身人工智能中的應(yīng)用方面發(fā)表了 120 余篇前沿論文，這些論文發(fā)表于該領(lǐng)域最負(fù)盛名的期刊和會(huì)議，谷歌引用量超過(guò) 30000 次。

她定期擔(dān)任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會(huì)議的領(lǐng)域主席，并擔(dān)任 CVPR 2021 的教程主席、 CVPR 2023 的評(píng)審主席。她曾榮獲ACM中國(guó)最佳博士論文獎(jiǎng)、CCF 最佳博士論文獎(jiǎng)以及阿里巴巴達(dá)摩院青年學(xué)者獎(jiǎng)。她的研究成果已被應(yīng)用于多家知名人工智能公司（如 Deepseek、聯(lián)想、字節(jié)跳動(dòng)和騰訊）的關(guān)鍵產(chǎn)品中。

中山大學(xué)梁小丹團(tuán)隊(duì)論文：讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章