成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    本文作者: 鄭佳美   2026-03-30 14:53
    導(dǎo)語(yǔ):ProPhy:一種讓視頻生成同時(shí)具備視覺(jué)真實(shí)和物理合理能力的方法。

    過(guò)去兩年,視頻生成模型的發(fā)展呈現(xiàn)出一個(gè)非常明顯的趨勢(shì):視覺(jué)質(zhì)量在快速逼近真實(shí)世界。從最初的模糊片段,到如今可以生成具有復(fù)雜場(chǎng)景、多主體交互甚至長(zhǎng)時(shí)序敘事的視頻,模型在紋理、光影和語(yǔ)義一致性方面已經(jīng)取得了長(zhǎng)足進(jìn)步。一些系統(tǒng)甚至被稱為通用世界模型的雛形,試圖通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式重建現(xiàn)實(shí)世界的運(yùn)行規(guī)律。

    但隨著分辨率和時(shí)長(zhǎng)的提升,一個(gè)更深層的問(wèn)題開(kāi)始暴露出來(lái):模型在視覺(jué)上越來(lái)越真實(shí),卻在物理上仍然不可信。也就是說(shuō),模型擅長(zhǎng)生成看起來(lái)像真實(shí)世界的畫(huà)面,卻并不真正理解現(xiàn)實(shí)世界是如何運(yùn)作的。這種差距在動(dòng)態(tài)場(chǎng)景中尤為明顯。當(dāng)場(chǎng)景涉及接觸、受力、流動(dòng)或能量傳遞時(shí),模型往往無(wú)法維持一致的物理邏輯。

    例如,在一些生成視頻中,可以觀察到物體在移動(dòng)過(guò)程中缺乏連續(xù)的動(dòng)力來(lái)源,運(yùn)動(dòng)像被“直接插值”出來(lái);兩個(gè)物體發(fā)生交互時(shí),接觸關(guān)系模糊甚至消失,表現(xiàn)為輕微重疊或延遲響應(yīng);再比如布料、煙霧或水流的變化往往只遵循外觀模式,而不是環(huán)境約束,導(dǎo)致整體行為缺乏穩(wěn)定性。

    這些問(wèn)題的本質(zhì)并不是數(shù)據(jù)不足,而是模型缺少對(duì)物理因果關(guān)系和空間約束的建模能力。如何讓視頻生成模型從“視覺(jué)擬合”走向“物理一致”,成為當(dāng)前領(lǐng)域中的關(guān)鍵問(wèn)題之一。

    在這樣的背景下,中山大學(xué)梁小丹團(tuán)隊(duì)提出了《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》,嘗試系統(tǒng)性地解決這一問(wèn)題。

    與以往方法不同,這項(xiàng)研究不再依賴單一層面的物理提示,而是通過(guò)分層建模和逐步對(duì)齊的方式,將物理信息從全局語(yǔ)義逐漸細(xì)化到局部空間,使模型能夠在不同區(qū)域響應(yīng)不同的物理規(guī)律。

    更重要的是,研究團(tuán)隊(duì)引入視覺(jué)語(yǔ)言模型作為中介,將其在空間理解上的優(yōu)勢(shì)轉(zhuǎn)化為生成模型的監(jiān)督信號(hào),從而彌補(bǔ)生成模型在物理定位能力上的不足。這種設(shè)計(jì)使模型不僅能夠判斷發(fā)生了什么,還能夠理解發(fā)生在什么位置,并在時(shí)間上保持一致的物理行為。

    從更宏觀的角度來(lái)看,這項(xiàng)工作所指向的并不僅僅是視頻生成質(zhì)量的提升,而是一個(gè)更深層的轉(zhuǎn)變:生成模型正在從再現(xiàn)視覺(jué)現(xiàn)象,逐步邁向?qū)κ澜邕\(yùn)行機(jī)制的近似建模。

    這一轉(zhuǎn)變對(duì)于未來(lái)的智能系統(tǒng)具有基礎(chǔ)性意義,因?yàn)橹挥挟?dāng)模型能夠在動(dòng)態(tài)過(guò)程中遵循基本規(guī)律時(shí),才有可能被用于更復(fù)雜的任務(wù),例如交互式環(huán)境構(gòu)建、真實(shí)場(chǎng)景仿真以及決策系統(tǒng)訓(xùn)練。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    論文地址:https://arxiv.org/pdf/2512.05564

    從「看起來(lái)真實(shí)」到「物理上正確」

    整體來(lái)看,研究結(jié)果主要圍繞一個(gè)核心目標(biāo)展開(kāi),也就是讓生成的視頻不僅看起來(lái)真實(shí),而且能夠符合物理規(guī)律。研究團(tuán)隊(duì)并不是用普通的視頻生成評(píng)測(cè)方式,而是專門采用了一個(gè)面向物理合理性的評(píng)測(cè)體系 VideoPhy2。

    在這個(gè)評(píng)測(cè)中,輸入是一段文本描述,例如“球撞擊地面揚(yáng)起灰塵”,模型需要根據(jù)文本生成視頻,然后由評(píng)測(cè)系統(tǒng)判斷兩個(gè)問(wèn)題:第一,生成的視頻是否符合物理常識(shí);第二,視頻內(nèi)容是否符合文本描述。

    在這一評(píng)測(cè)體系中,有三個(gè)非常關(guān)鍵的指標(biāo)。第一個(gè)是 PC,也就是 Physical Commonsense,用來(lái)衡量視頻是否違反基本物理規(guī)律,比如重力、流體運(yùn)動(dòng)或者碰撞行為。第二個(gè)是 SA,也就是 Semantic Adherence,用來(lái)判斷視頻是否正確完成了文本描述中的語(yǔ)義任務(wù),例如是否真的發(fā)生了“倒水”這一行為。第三個(gè)是 Joint,表示同時(shí)滿足 PC 和 SA,也就是既符合物理,又符合語(yǔ)義,這是評(píng)估模型生成的視頻是否符合物理現(xiàn)象的綜合指標(biāo)。

    在具體實(shí)驗(yàn)結(jié)果方面,研究人員首先在 Wan2.1(1.3B)模型上進(jìn)行了對(duì)比。原始模型的 PC 為 57.8,SA 為 30.0,Joint 為 24.8;加入 ProPhy 之后,PC 提升到 65.0,SA 提升到 32.0,Joint 提升到 26.5。可以看到,PC 提升了 7.2,這是最顯著的變化,說(shuō)明模型明顯減少了違反物理規(guī)律的情況,例如更少出現(xiàn)水向上流動(dòng)或者物體發(fā)生穿透的現(xiàn)象。

    相比之下,SA 只提升了 2,這說(shuō)明 ProPhy 的主要作用并不在于提升對(duì)文本的理解能力,而是在于增強(qiáng)物理正確性。Joint 只提升了 1.7,原因在于 Joint 必須同時(shí)滿足 PC 和 SA,而 SA 本身數(shù)值較低,限制了整體提升空間。

    在更強(qiáng)的模型 CogVideoX 上,結(jié)果同樣顯著。原始模型的 Joint 約為 22.3,加入 ProPhy 后提升到約 26.7,提升幅度約為 4.4。這個(gè)結(jié)果不僅超過(guò)了 WISA,也超過(guò)了 VideoREPA,說(shuō)明這種方法能夠同時(shí)提升參數(shù)量不同的視頻生成模型的物理生成能力。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    為了進(jìn)一步驗(yàn)證方法在復(fù)雜場(chǎng)景中的表現(xiàn),研究人員還在 HARD 子集上進(jìn)行了測(cè)試。這一子集包含多物體交互、高速運(yùn)動(dòng)以及復(fù)雜物理過(guò)程等更具挑戰(zhàn)性的情況。在 Wan2.1 上,Joint 從 5.6 提升到 7.2;在 CogVideoX 上,Joint 從 5.0 提升到 6.1。雖然這些數(shù)值整體較低,但由于任務(wù)本身難度極高,這種提升具有重要意義,說(shuō)明 ProPhy 在真正需要物理推理的場(chǎng)景中更有效。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    除了物理合理性,研究人員還使用VBench 評(píng)測(cè)體系評(píng)估了生成視頻的質(zhì)量。結(jié)果顯示,動(dòng)態(tài)程度從 46.8 提升到 72,總體質(zhì)量評(píng)分從 76.8 提升到 81。這一現(xiàn)象說(shuō)明物理建模在提升視頻動(dòng)態(tài)表現(xiàn)的同時(shí),略微提升了視頻的質(zhì)量。深層原因在于,動(dòng)態(tài)如果不符合物理規(guī)律,會(huì)直接導(dǎo)致視覺(jué)不自然,例如水流錯(cuò)誤會(huì)顯得不真實(shí),碰撞錯(cuò)誤會(huì)讓動(dòng)作顯得不連貫。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    在定性結(jié)果方面,研究通過(guò)多個(gè)案例展示模型行為的變化。在揚(yáng)塵場(chǎng)景中,傳統(tǒng)模型會(huì)在球還未落地時(shí)就產(chǎn)生灰塵,而 ProPhy 只有在接觸地面之后才產(chǎn)生揚(yáng)塵,這表明模型學(xué)會(huì)了“接觸導(dǎo)致結(jié)果”的因果關(guān)系。

    在碰撞場(chǎng)景中,傳統(tǒng)模型可能出現(xiàn)球體穿透或靜止不動(dòng),而 ProPhy 能夠表現(xiàn)出動(dòng)量傳遞,小球在被撞擊后開(kāi)始運(yùn)動(dòng),說(shuō)明模型隱式地學(xué)習(xí)到了動(dòng)量守恒。在流體場(chǎng)景中,傳統(tǒng)模型可能生成違反約束的水流,而 ProPhy 的流動(dòng)表現(xiàn)更加合理。

    綜合來(lái)看,這些結(jié)果說(shuō)明模型不再只是依賴圖像模式進(jìn)行生成,而是開(kāi)始遵循一定的物理規(guī)則,表現(xiàn)出對(duì)物理因果關(guān)系的理解能力。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    一條從語(yǔ)義到空間的物理建模鏈路

    實(shí)驗(yàn)經(jīng)過(guò)可以理解為一個(gè)從文本到物理再到視頻逐步細(xì)化的過(guò)程。模型首先接收文本 prompt 作為輸入,隨后依次經(jīng)歷三個(gè)關(guān)鍵步驟:提取物理信息,將這些物理信息注入到視頻生成過(guò)程中,并在生成過(guò)程中逐層進(jìn)行細(xì)化,使物理規(guī)律逐漸融入到視頻內(nèi)容中。

    在第一階段,研究團(tuán)隊(duì)設(shè)計(jì)了語(yǔ)義級(jí)物理模塊 SEB,其核心作用是從文本中提取視頻涉及的物理現(xiàn)象,也就是判斷“這個(gè)視頻涉及哪些物理過(guò)程”。在內(nèi)部結(jié)構(gòu)上,這一模塊包含 32 個(gè)物理專家,每個(gè)專家對(duì)應(yīng)一種不同的物理模式,例如燃燒、流體或碰撞等。

    SEB 中還存在一個(gè)路由器,用于為每個(gè)特定領(lǐng)域的隱式物理專家分配權(quán)重。通過(guò)這種方式,模型可以得到一個(gè)加權(quán)組合的結(jié)果,也就是一個(gè)“混合的物理先驗(yàn)”。從本質(zhì)上看,SEB 可以理解為一個(gè)物理分類器與權(quán)重分配器的結(jié)合體,它負(fù)責(zé)在全局層面確定視頻的物理屬性。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    在第二階段,研究人員引入了細(xì)粒度模塊 REB,用于進(jìn)行 token 級(jí)別的物理建模。引入這一層的原因在于,同一個(gè)視頻中往往存在多個(gè)不同的物理現(xiàn)象,例如火焰可能出現(xiàn)在畫(huà)面左側(cè),而水流可能出現(xiàn)在右側(cè),因此需要對(duì)空間進(jìn)行區(qū)分。REB的具體作用是針對(duì)每一個(gè) token 判斷其對(duì)應(yīng)的物理現(xiàn)象。

    在實(shí)現(xiàn)上,與 SEB 不同的是,每個(gè) token 會(huì)從中選擇 top-k 個(gè)專家進(jìn)行計(jì)算,從而得到更精細(xì)的物理表達(dá)。最終輸出的是一個(gè)空間上的物理分布圖,也就是每個(gè)位置對(duì)應(yīng)哪種物理現(xiàn)象。從本質(zhì)上看,REB可以理解為一個(gè)基于VLM的物理分割器,使模型能夠在空間上區(qū)分不同物理過(guò)程。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    在整個(gè)方法中,最關(guān)鍵的一部分是引入了 VLM 監(jiān)督機(jī)制。研究人員發(fā)現(xiàn),視頻生成模型在識(shí)別“物理現(xiàn)象發(fā)生在哪里”這一問(wèn)題上能力較弱,而視覺(jué)語(yǔ)言模型在這一任務(wù)上表現(xiàn)更強(qiáng)。因此,研究團(tuán)隊(duì)利用 VLM 來(lái)為模型提供監(jiān)督信號(hào)。

    具體流程分為多個(gè)步驟:首先向 VLM 提問(wèn)“視頻中的燃燒在哪里”,然后得到文本 token 以及與之對(duì)應(yīng)的視覺(jué) token;接著通過(guò)計(jì)算注意力得到燃燒區(qū)域;隨后再詢問(wèn)“背景是什么”,得到背景區(qū)域;最后將兩者相減,從而得到純粹的物理區(qū)域。

    通過(guò)這一過(guò)程,可以得到一個(gè)矩陣,其中每個(gè) token 對(duì)應(yīng)某種物理現(xiàn)象的概率分布。這個(gè)結(jié)果被用來(lái)訓(xùn)練 REB,使其逐漸學(xué)會(huì)識(shí)別物理現(xiàn)象在空間中的分布位置,也就是學(xué)會(huì)“物理在哪里”。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    在訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)目標(biāo)函數(shù)來(lái)約束模型行為。第一個(gè)是 Lcoarse,對(duì)應(yīng)語(yǔ)義級(jí)對(duì)齊,其目標(biāo)是讓屬于同一物理類別的樣本具有相似表示,而不同類別之間能夠被區(qū)分開(kāi)。第二個(gè)是 Lfine-align,對(duì)應(yīng)空間級(jí)對(duì)齊,其目標(biāo)是讓模型在 token 層面的預(yù)測(cè)盡可能接近 VLM 提供的標(biāo)注。第三個(gè)是 Lfine-balance,其目標(biāo)是保證所有專家都能被有效使用,避免只有少數(shù)專家被頻繁激活。三者的權(quán)重分別設(shè)置為 0.1、0.02 和 0.01,從而在訓(xùn)練中形成平衡。雷峰網(wǎng)

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    為了驗(yàn)證這些設(shè)計(jì)的必要性,研究人員進(jìn)行了消融實(shí)驗(yàn)。結(jié)果表明,如果去掉 REB,模型將失去空間層面的物理建模能力;如果去掉 SEB,模型的物理分類能力會(huì)明顯下降;如果去掉對(duì)齊機(jī)制,模型訓(xùn)練會(huì)變得不穩(wěn)定。綜合來(lái)看,這三個(gè)部分是相互遞進(jìn)的,缺少任何一部分都會(huì)導(dǎo)致性能下降。

    最后,研究團(tuán)隊(duì)還分析了不同專家所學(xué)習(xí)到的物理知識(shí)之間的關(guān)系。通過(guò)計(jì)算專家之間的相關(guān)性發(fā)現(xiàn),與燃燒相關(guān)的專家和爆炸相關(guān)的專家之間具有較高相關(guān)性,而爆炸與折射之間的相關(guān)性較低。

    這一現(xiàn)象說(shuō)明模型不僅學(xué)會(huì)了單一的物理現(xiàn)象,還捕捉到了不同物理過(guò)程之間的結(jié)構(gòu)關(guān)系,從而形成了一種更加系統(tǒng)化的物理知識(shí)表示。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    面向動(dòng)態(tài)世界的一種建模嘗試

    整體來(lái)看,這項(xiàng)研究實(shí)驗(yàn)意義不僅體現(xiàn)在方法層面的改進(jìn),還反映了視頻生成技術(shù)發(fā)展方向的一次重要轉(zhuǎn)變。

    以往的視頻生成模型主要依賴數(shù)據(jù)中出現(xiàn)頻率較高的視覺(jué)模式進(jìn)行學(xué)習(xí),本質(zhì)上是在回答畫(huà)面長(zhǎng)什么樣,而不是解釋為什么會(huì)出現(xiàn)這樣的變化。這種方式雖然可以生成外觀逼真的視頻,但缺乏對(duì)物理規(guī)律和因果關(guān)系的理解,因此經(jīng)常出現(xiàn)看似合理卻違背現(xiàn)實(shí)規(guī)律的現(xiàn)象。

    圍繞這一問(wèn)題,研究團(tuán)隊(duì)提出了幾個(gè)關(guān)鍵突破。首先,將物理從隱式的統(tǒng)計(jì)規(guī)律轉(zhuǎn)變?yōu)轱@式的知識(shí)結(jié)構(gòu),通過(guò)引入物理專家,使模型能夠區(qū)分不同類型的物理過(guò)程,例如燃燒、流體和碰撞,從而避免將所有現(xiàn)象混合在一起進(jìn)行學(xué)習(xí)。

    其次,將物理建模從整體層面推進(jìn)到空間層面,使模型能夠在同一視頻中區(qū)分不同區(qū)域的物理現(xiàn)象,例如某一位置發(fā)生燃燒,而另一位置存在流體運(yùn)動(dòng),這種空間區(qū)分能力顯著提高了生成結(jié)果的合理性。

    再次,引入視覺(jué)語(yǔ)言模型作為教師角色,利用其更強(qiáng)的理解能力為生成模型提供物理定位信息,使模型不僅知道發(fā)生了什么,還能夠知道發(fā)生在什么位置,這種方式形成了一種新的訓(xùn)練思路,也就是用理解能力更強(qiáng)的模型去指導(dǎo)生成模型學(xué)習(xí)更復(fù)雜的結(jié)構(gòu)。

    從更深層的角度來(lái)看,這項(xiàng)研究推動(dòng)人工智能從單純的視覺(jué)生成向世界模擬邁進(jìn)。隨著物理建模能力的加入,模型開(kāi)始具備一定程度的因果理解能力,能夠在生成過(guò)程中遵循基本約束并體現(xiàn)出規(guī)律性。這種能力對(duì)于未來(lái)技術(shù)的發(fā)展具有重要意義,例如在機(jī)器人訓(xùn)練中,可以通過(guò)生成更符合物理規(guī)律的環(huán)境來(lái)提高學(xué)習(xí)效果,在自動(dòng)駕駛領(lǐng)域,可以更真實(shí)地模擬復(fù)雜交通場(chǎng)景,在仿真系統(tǒng)中,可以用于構(gòu)建更加可靠的虛擬測(cè)試環(huán)境。

    從普通人的角度來(lái)看,這項(xiàng)研究的影響也會(huì)逐漸顯現(xiàn)。在內(nèi)容創(chuàng)作方面,視頻生成工具將不再只是生成好看的畫(huà)面,而是能夠生成更加真實(shí)、更加自然的動(dòng)態(tài)內(nèi)容,減少違和感,從而提升影視制作、短視頻創(chuàng)作和游戲開(kāi)發(fā)的效率與質(zhì)量。

    在教育領(lǐng)域,可以利用這種技術(shù)生成更直觀的物理演示,幫助理解復(fù)雜的現(xiàn)象,例如碰撞過(guò)程或流體變化。在日常應(yīng)用中,更真實(shí)的虛擬場(chǎng)景也意味著更可靠的數(shù)字孿生環(huán)境,例如用于訓(xùn)練或模擬現(xiàn)實(shí)任務(wù)。

    與此同時(shí),研究人員也指出了當(dāng)前方法的局限性。一方面,物理監(jiān)督依賴視覺(jué)語(yǔ)言模型的標(biāo)注,而這種標(biāo)注不可避免地存在噪聲,可能影響學(xué)習(xí)效果;另一方面,模型目前主要學(xué)習(xí)的是物理現(xiàn)象的表層模式,而不是基于嚴(yán)格方程的物理機(jī)制,因此仍然屬于近似模擬。

    基于這些問(wèn)題,未來(lái)的研究方向包括引入更加嚴(yán)格的物理方程以及構(gòu)建更強(qiáng)的因果建模能力,使模型能夠從經(jīng)驗(yàn)式學(xué)習(xí)進(jìn)一步走向更加可靠的物理推理,從而提升對(duì)真實(shí)世界的理解與模擬水平。

    ProPhy 背后的科研工作者

    王子俊,中山大學(xué)智能工程學(xué)院 2025 級(jí)博士研究生,本科畢業(yè)于中山大學(xué)智能工程學(xué)院,師從梁小丹教授。他的研究方向是視頻生成和世界模型。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    胡攀文,現(xiàn)在是穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)計(jì)算機(jī)視覺(jué)系博士后,主要研究方向?yàn)閭€(gè)性化和視頻生成,世界模型。分別于 2023 年和 2018 年從香港中文大學(xué)(深圳)和中國(guó)科學(xué)技術(shù)大學(xué)獲得博士和碩士學(xué)位。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    黎漢匯, 分別于 2012 年和 2018 年獲得中山大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)士學(xué)位和計(jì)算機(jī)軟件與理論博士學(xué)位。他目前是中山大學(xué)深圳校區(qū)的特聘研究員。此前,他于 2019 年至 2021 年在新加坡南洋理工大學(xué)擔(dān)任研究員。他的研究方向包括視覺(jué)媒體分析與推理。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    梁小丹是中山大學(xué)深圳校區(qū)的教授,同時(shí)也是穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)計(jì)算機(jī)視覺(jué)系的副教授。她曾是卡內(nèi)基梅隆大學(xué)的項(xiàng)目科學(xué)家,與邢教授合作。

    她在視覺(jué)語(yǔ)言理解與生成及其在具身人工智能中的應(yīng)用方面發(fā)表了 120 余篇前沿論文,這些論文發(fā)表于該領(lǐng)域最負(fù)盛名的期刊和會(huì)議,谷歌引用量超過(guò) 30000 次。

    她定期擔(dān)任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會(huì)議的領(lǐng)域主席,并擔(dān)任 CVPR 2021 的教程主席、 CVPR 2023 的評(píng)審主席。她曾榮獲ACM中國(guó)最佳博士論文獎(jiǎng)、CCF 最佳博士論文獎(jiǎng)以及阿里巴巴達(dá)摩院青年學(xué)者獎(jiǎng)。她的研究成果已被應(yīng)用于多家知名人工智能公司(如 Deepseek、聯(lián)想、字節(jié)跳動(dòng)和騰訊)的關(guān)鍵產(chǎn)品中。

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026


    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    中山大學(xué)梁小丹團(tuán)隊(duì)論文:讓視頻生成從「看起來(lái)真實(shí)」到「物理上正確」丨CVPR 2026

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)