百度 PaddlePaddle AI 大賽冠軍林天威專訪：如何準(zhǔn)確識(shí)別綜藝視頻中的「精彩片段」？

本文作者：孔令雙

編輯：郭奕欣

2018-05-02 10:00

導(dǎo)語(yǔ)：理解視頻中人的動(dòng)作和行為是計(jì)算機(jī)視覺領(lǐng)域里非常具有挑戰(zhàn)性的問題。

雷鋒網(wǎng) AI 研習(xí)社按，在電視綜藝節(jié)目的攝制過程中，常常會(huì)出現(xiàn)十幾、二十多臺(tái)攝像機(jī)同時(shí)拍攝的情況，比如多臺(tái)攝像機(jī)跟拍一個(gè)藝人。這樣的一次跟拍耗時(shí)長(zhǎng)，素材多，因此也給視頻的后期和剪輯帶來了非常多的不便，對(duì)于視頻剪輯人員來說也頗為枯燥和繁瑣。

這些視頻素材一般會(huì)經(jīng)歷兩個(gè)剪輯過程：首先初剪所有的視頻素材，去掉明顯不可用的鏡頭，然后再精剪。但不論哪個(gè)過程，都需要導(dǎo)演和剪輯師在剪輯過程中時(shí)刻判斷哪些片段是需要留下來的，哪些片段能產(chǎn)生良好的觀賞效果。雖然視頻剪輯師們?cè)谧R(shí)別「精彩鏡頭」方面有著豐富的經(jīng)驗(yàn)，但當(dāng)素材量很大或者需要在同一時(shí)刻的數(shù)個(gè)鏡頭里做出選擇時(shí)，他們?nèi)孕枰ㄙM(fèi)不少精力。

針對(duì)上述的行業(yè)痛點(diǎn)，12 月 28 日，百度和科賽網(wǎng)聯(lián)合發(fā)起的「PaddlePaddle AI 大賽」正式開賽。本次大賽聚焦于電視綜藝行業(yè)，百度 BROAD 數(shù)據(jù)集提供了來自愛奇藝的 1500 條總共 1200 小時(shí)電視綜藝視頻。參賽選手們要利用百度 PaddlePaddle 分布式深度學(xué)習(xí)平臺(tái)及 BROAD 公開數(shù)據(jù)集，通過訓(xùn)練學(xué)習(xí)視頻幀的圖片特征序列，輸出實(shí)際可用的影視行業(yè)預(yù)測(cè)精彩片段時(shí)間戳的算法模型，進(jìn)而對(duì)任意一個(gè)未被標(biāo)注精彩片段的長(zhǎng)視頻，輸出其中精彩片段的時(shí)間戳，從而減輕視頻剪輯師的工作壓力。

百度 PaddlePaddle AI 大賽冠軍林天威專訪：如何準(zhǔn)確識(shí)別綜藝視頻中的「精彩片段」？

經(jīng)過 3 個(gè)月的角逐，來自上海交通大學(xué)自動(dòng)化系計(jì)算機(jī)視覺實(shí)驗(yàn)室的在讀研究生林天威在其導(dǎo)師趙旭老師的指導(dǎo)下獲得了本次 PaddlePaddle AI 開發(fā)者大賽冠軍，并受邀在百度 AI 開發(fā)者實(shí)戰(zhàn)營(yíng)上發(fā)表演講。實(shí)際上，林天威已經(jīng)是視頻分析和理解領(lǐng)域的「老手」，在去年CVPR舉辦的ActivityNet Large Scale ActivityRecognition Challenge 上，林天威就獲得了未修剪視頻序列時(shí)序動(dòng)作提名（TemporalAction Proposal）和時(shí)序動(dòng)作定位（Temporal Action Localization）兩項(xiàng)任務(wù)的冠軍。

理解視頻中人的動(dòng)作和行為是計(jì)算機(jī)視覺領(lǐng)域里非常具有挑戰(zhàn)性的問題，擁有很大的應(yīng)用潛力。能夠在兩次視頻分析挑戰(zhàn)賽中奪得冠軍，林天威在視頻分析和處理方面有哪些獨(dú)到的經(jīng)驗(yàn)？雷鋒網(wǎng) AI 研習(xí)社借此機(jī)會(huì)采訪了林天威，向各位 AI 開發(fā)者分享他的學(xué)習(xí)和比賽經(jīng)歷。

百度 PaddlePaddle AI 大賽冠軍林天威專訪：如何準(zhǔn)確識(shí)別綜藝視頻中的「精彩片段」？

以下是雷鋒網(wǎng) AI 研習(xí)社采訪內(nèi)容：

請(qǐng)問你參加這次百度 PaddlePaddle AI 挑戰(zhàn)賽的初衷是什么？

我讀研以來一直在做時(shí)序動(dòng)作檢測(cè)領(lǐng)域的研究，百度提出的 BROAD 數(shù)據(jù)集正好也是做時(shí)序檢測(cè)任務(wù)的，所以我主要想通過 BROAD 數(shù)據(jù)集和這次競(jìng)賽來檢測(cè)一下時(shí)序動(dòng)作檢測(cè)領(lǐng)域算法在實(shí)際問題與場(chǎng)景的應(yīng)用中能獲得怎樣的效果。

對(duì)于本次比賽而言，你覺得你的方案有哪些創(chuàng)新之處能讓你保持第一的成績(jī)？

此次競(jìng)賽我直接使用了我近期投稿在 ECCV 的論文中的算法，其主要的創(chuàng)新之處是采用了由局部到整體（local to global）的算法框架，能夠獲得比較高質(zhì)量的時(shí)序片段邊界。由于該算法在 BROAD 數(shù)據(jù)集上直接跑的效果很好，所以競(jìng)賽中沒有做模型融合，也沒有添加額外的 trick。

比賽第一階段使用的是已抽取的 10% 的視頻訓(xùn)練集，而第二階段使用的是全量視頻數(shù)據(jù)訓(xùn)練集，這樣的變化給你的訓(xùn)練帶來怎樣挑戰(zhàn)？

訓(xùn)練時(shí)間以及訓(xùn)練時(shí)需要的內(nèi)存更大一些，其余無影響。

視頻幀的特征包括兩部分，一個(gè)是圖像的特征，一個(gè)是語(yǔ)音的特征，但本次比賽視頻幀特征序列只從圖像抽取特征，你覺得本次比賽的結(jié)果能否解決實(shí)際視頻分析中的問題？

實(shí)際上復(fù)賽中可以使用語(yǔ)音的特征。對(duì)于精彩片段檢測(cè)問題，由于定義和標(biāo)注比較明確，所以此次競(jìng)賽中大家的算法能獲得比較好的檢測(cè)效果，我覺得可以用于實(shí)際場(chǎng)景中。

本次分析綜藝視頻的技術(shù)和經(jīng)驗(yàn)?zāi)芊駪?yīng)用于其他行業(yè)？比如安防？

此次競(jìng)賽其實(shí)是「時(shí)序動(dòng)作檢測(cè)」任務(wù)，我認(rèn)為相關(guān)算法不太適合安防場(chǎng)景，因?yàn)榘卜缊?chǎng)景通常需要：1）在線處理 2）同時(shí)定位圖像中的目標(biāo)位置。相對(duì)來說，時(shí)序動(dòng)作檢測(cè)算法更適合與這次競(jìng)賽類似的網(wǎng)絡(luò)娛樂視頻的分析、檢測(cè)和推薦任務(wù)。

你曾經(jīng)參加過 ActivityNet 視頻行為分類比賽并獲得了兩項(xiàng)任務(wù)的冠軍，那么參加 ActivityNet 比賽的經(jīng)驗(yàn)對(duì)此次 PaddlePaddle AI 挑戰(zhàn)賽有哪些借鑒之處？

實(shí)際上兩者的任務(wù)非常相似（時(shí)序檢測(cè)），BROAD 數(shù)據(jù)集的標(biāo)注、測(cè)評(píng)代碼也基本參考了 ActivityNet 中的設(shè)計(jì)。在 ActivityNet 和 PaddlePaddle AI 競(jìng)賽中，獲得高質(zhì)量結(jié)果都有兩個(gè)要點(diǎn)：(1) 時(shí)序檢測(cè)片段需要有精確的邊界；(2)時(shí)序檢測(cè)片段的置信度要準(zhǔn)確，從而獲得良好的排序。

本次挑戰(zhàn)賽用到了百度 BROAD 的視頻數(shù)據(jù)集，你覺得該數(shù)據(jù)集和你以前接觸過的 ActivityNet、Kinetics、UCF-101、Moments in Time 等視頻數(shù)據(jù)集相比有哪些特點(diǎn)？開發(fā)者在使用BROAD 的視頻數(shù)據(jù)集訓(xùn)練模型時(shí)需要注意哪些事情？

BROAD 數(shù)據(jù)集的標(biāo)注分布其實(shí)和 THUMOS-2014 比較像，但是包含的視頻數(shù)量要多一些。BROAD 數(shù)據(jù)集的優(yōu)點(diǎn)是提供了質(zhì)量不錯(cuò)的特征，缺點(diǎn)則是類別和場(chǎng)景比較單一，若作為學(xué)術(shù)場(chǎng)景中使用我覺得多樣性有些不足。

如果在用 BROAD 的視頻數(shù)據(jù)集訓(xùn)練模型時(shí)，需要注意的點(diǎn)可能有：由于特征文件比較大，所以可以先對(duì)特征降采樣（比如五分之一），再運(yùn)行后面的算法。

你在 ActivityNet 比賽里獲得兩項(xiàng)任務(wù)的冠軍，同時(shí)在 PaddlePaddleAI 挑戰(zhàn)賽里一直保持著第一的好成績(jī)，你有什么好的比賽經(jīng)驗(yàn)或者建議可以分享給其他的開發(fā)者嗎？

我參加的這兩次競(jìng)賽實(shí)際上都算是學(xué)術(shù)性比較強(qiáng)的競(jìng)賽，而且我一直研究這個(gè)方向，所以對(duì)視頻分析比較熟悉。我的建議是，如果是學(xué)術(shù)類的競(jìng)賽，還是要多看相關(guān)領(lǐng)域的論文；此外，在開始設(shè)計(jì)模型前，最好先對(duì)數(shù)據(jù)集本身的分布情況做一個(gè)詳盡的分析。

通過這次比賽，你覺得百度的 PaddlePaddle 深度學(xué)習(xí)框架和其他的深度學(xué)習(xí)框架相比有什么特點(diǎn)？

本次比賽中開放使用的版本（paddlepaddle0.10）我覺得可能比較適合生產(chǎn)場(chǎng)景部署吧，作為學(xué)術(shù)研究的話靈活性比較差。后續(xù)的 fluid 接口在這方面應(yīng)該會(huì)好一些。

目前你還在上海交大讀研究生，畢業(yè)后你有怎樣的打算？準(zhǔn)備往哪個(gè)方向發(fā)展？

畢業(yè)后計(jì)劃開始工作，個(gè)人希望進(jìn)入安防或其他視頻分析相關(guān)的方向發(fā)展。

想查閱上文所提到的論文以及獲取更多視頻分析經(jīng)驗(yàn)，請(qǐng)?jiān)L問林天威知乎和個(gè)人主頁(yè)：

知乎：

https://www.zhihu.com/people/wzmsltw/activities

個(gè)人主頁(yè)：

https://wzmsltw.github.io/

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。