微軟亞洲研究院資深研究員梅濤：原來視頻可以這么玩了！ | CCF-GAIR 2017

本文作者：汪思穎

編輯：郭奕欣

2017-07-10 11:11

專題：GAIR 2017

導語：視頻也可以像美圖一樣玩了。

7月9日，由中國計算機學會（CCF）主辦，雷鋒網與香港中文大學（深圳）承辦的CCF-GAIR 2017全球人工智能與機器人峰會進入了第三天。在CV+專場首場，微軟亞洲研究院資深研究員梅濤博士為大會帶來了題為《Video Content 3C: Creation, Curation, Consumption》的分享，即視頻的創造、處理和消費。雷鋒網對梅濤博士的演講內容梳理如下：

微軟亞洲研究院資深研究員梅濤：原來視頻可以這么玩了！ | CCF-GAIR 2017

為什么要講視頻的內容，梅濤博士提到如下幾點。

一，視頻跟圖像相比信息更豐富，處理起來也更富挑戰性；
二，大家近來看到比較多的是視覺領域比如人臉、安防方面的進展，而視頻（尤其是短視頻）相對來說是比較嶄新的領域；
三，他本人從事視頻分析的研究和產品已經十多年了，在這十幾年里，幾乎人人都說視頻是下一個風口，今天看來這個說法似乎也是成立的。

在傳統的視覺理解的方法里，要做視覺問題基本上分三個步驟：

第一，理解一個物體，比如說識別一個桌子，首先要檢測一個關鍵點（比如角、邊、面等）；
第二，人為設計一些特征來描述這些點的視覺屬性；
第三，采用一些分類器將這些人為設計的特征作為輸入進行分類和識別。

“現在的深度學習，尤其是在2012開始，圖像理解的錯誤率在不斷降低，深度神經網絡也從最早的8層到20多層，到現在能達到152層。我們最新的工作也表明，視頻理解的深度神經網絡也可以從2015年3D CNN的11層做到現在的199層。”

梅濤博士也在演講中表示，視頻內容的生命周期大致可以分為三個部分，即視頻的創作、處理和消費：

creation

要討論視頻的創作，這里面涉及到一個基本概念，那就是視頻的產生原理。“Video的產生是先把Video切成一個一個的鏡頭，可以看成是一個一個斷碼，然后每一個鏡頭再組合編成一個故事或場景，每一個鏡頭還可以再細成子鏡頭，每個子鏡頭可以用一個關鍵幀來代表。通過這種分層式結構可以把一段非線性的視頻流像切分文章一樣進行結構化，這種結構化是后面做視頻處理和分析的基礎。通過這種結構化將視頻分解成不同的單元，就可以做視頻的自動摘要，即將一段長視頻自動剪輯為精彩的短視頻，或將一段長視頻用一些具有高度視覺代表性的關鍵幀表示。這些摘要使得用戶對長視頻的非線性快速瀏覽成為可能。”

梅濤博士表示，微軟目前將視頻摘要的技術用在了Bing的視頻搜索里，現在全世界有八百萬的Bing用戶通過一種叫multi-thumb的技術，可以快速預覽每一個視頻搜索結果。

此外，微軟研究院研發的PIX是一個全新的相機app，它可以在你按下拍攝按鍵的同時就對拍攝的視頻進行實時處理，可以將一段抖動的視頻變得平穩，還可以自動判斷視頻中靜止和動態的像素，生成 loopy video animation。

curation

當用戶有了視頻之后，研究者要做的事情是給視頻片段打上標簽，這樣后面的搜索就可以基于標簽搜到視頻的內容里面去。“我們最近的工作可以對視頻內容打上1000多個靜態標簽和超過500個以上的動作標簽。我們設計的P3D（pseudo 3D resent）是專門為視頻內容理解而精心設計的3D殘差網絡。”

做圖像分析目前最好的深度神經網絡是微軟亞洲研究院在2015年提出的152層的殘差網絡（ResNet），目前最深可以做到1000層。但是在視頻領域，專門為視頻設計的最有效的3D CNN目前才11層。為了解決這一問題，梅濤博士表示，團隊最近借用ResNet的思想，將3D CNN的層數做到了199，識別率能在UCF 101數據集上比之前的3D CNN提高6到7個百分點。這一對視頻進行自動標簽的技術，將會被使用在微軟的Azure云服務中。

實現了視頻自動標簽技術外，梅濤博士還闡述了團隊“更進一步”的研究工作：用一段連貫通順的自然語言，而不是孤立的單個標簽，來描述一段視頻內容。

“比如給定這段視頻，我們能不能生成一句話來描述這個Video？以前我們說這個Video是一個舞蹈，現在可以告訴你這是一群人在跳一段什么舞蹈，這個技術就叫Video Captioning。這個技術使得自動生成視頻的標題成為可能。”

微軟亞洲研究院目前把這個技術用在了聊天機器人的自動評價功能里，例如微軟小冰，當用戶上傳視頻給小冰，它會夸贊對方。在這個技術上線一個月后，小冰在某視頻網站上的粉絲數漲了60%。當然，小冰現在還可以根據圖片內容寫現代詩，將來我們希望小冰能夠根據視頻來寫詩。

“我們也可以將Video進行編輯，加上濾鏡，或是做風格的轉換，把自然的Video變得非常卡通。Video中的人物分割出來可以放到另外一個虛擬的場景里面去。你可以想象，當兩個人在異地談戀愛的時候，我們能夠給他一個房間，讓他們在同一個房間里、在星空下、在安靜湖面上的一艘小船上進行聊天。

另外，我們也可以提供storytelling的服務，讓原始的、沒有經過任何編輯和處理的image、video集合變成一段非常吸引人的、有一定設計感和視覺感的故事，這段視頻demo就是機器自動產生的效果。加上人工的處理，視頻就可以變得更加時尚。”

consumption

視頻的消費往往和廣告緊密相關。梅濤提到，做Video廣告有兩個問題需要解決：第一個問題是廣告到底放在Video的什么位置；第二個問題是選什么樣的廣告，這個廣告跟你插入點的信息是不是相關，使得用戶接受度更加好。

他們的解決方案是將Video進行分解，并計算出兩種度量，一個是discontinuity，衡量一個廣告插入點的故事情節是否連續；另一個是attractiveness，衡量一段原始視頻的內容是否精彩。對這兩種度量進行不同的組合就可以滿足符合廣告商（advertiser）或用戶（viewer）的需求。

最后梅濤總結道，在做科研的人看來，AI也好，深度學習也好，落地都有很長的路要走。“雖然計算機視覺已經發展了50多年，雖然現在AI炒的很火熱，但做科研和技術的，還是要腳踏實地去解決一個個的場景和一個個底層的基礎難題。”

雷鋒網AI科技評論原創文章，更多詳細的演講內容參見雷鋒網AI科技評論后續報道。

微軟亞洲研究院資深研究員梅濤：原來視頻可以這么玩了！ | CCF-GAIR 2017

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

專題

GAIR 2017

本專題其他文章

汪思穎

編輯

關注AI學術，例如論文

發私信

當月熱門文章