專訪騰訊AI Lab劉威：視覺+NLP交叉將持續升溫，視頻理解的研究將再上一個臺階 | CVPR 回顧

本文作者：溫曉樺

2017-08-10 14:31

導語：CVPR 2017期間，雷鋒網AI科技評論與AI Lab 計算機視覺中心總監劉偉博士聊了聊這些論文成果產生的背后，以及對CV未來研究的想法。

雷鋒網AI科技評論報道，2017年計算機視覺領域頂級學術會議CVPR（IEEE Conference on Computer Vision and Pattern Recognition）剛剛結束，今年CVPR上，一共783篇論文被收錄，錄取率29%，口頭報告錄取率僅2.65%。作為國內著名的人工智能研究機構，騰訊AI Lab（騰訊人工智能實驗室）共有六篇論文入選CVPR。它們是：

論文一：Real Time Neural Style Transfer for Videos

本文用深度前向卷積神經網絡探索視頻藝術風格的快速遷移，提出了一種全新兩幀協同訓練機制，能保持視頻時域一致性并消除閃爍跳動瑕疵，確保視頻風格遷移實時、高質、高效完成。

論文二：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

論文首次提出一種全尺寸、無標注、基于病理圖片的病人生存有效預測方法WSISA，在肺癌和腦癌兩類癌癥的三個不同數據庫上性能均超出基于小塊圖像方法，有力支持大數據時代的精準個性化醫療。

論文三：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

針對圖像描述生成任務，SCA-CNN基于卷積網絡的多層特征來動態生成文本描述，進而建模文本生成過程中空間及通道上的注意力模型。

論文四：Deep Self-Taught Learning for Weakly Supervised Object Localization

本文提出依靠檢測器自身不斷改進訓練樣本質量，不斷增強檢測器性能的一種全新方法，破解弱監督目標檢測問題中訓練樣本質量低的瓶頸。

論文五：Diverse Image Annotation

本文提出了一種新的自動圖像標注目標，即用少量多樣性標簽表達盡量多的圖像信息，該目標充分利用標簽之間的語義關系，使得自動標注結果與人類標注更加接近。

論文六：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

基于曼哈頓結構與對稱信息，文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。

專訪騰訊AI Lab劉威：視覺+NLP交叉將持續升溫，視頻理解的研究將再上一個臺階 | CVPR 回顧

騰訊AI Lab于2016年4月正式成立，主要圍繞圖像識別、語音識別、自然語言處理和機器學習4個方向進行研究。在今年3月第10屆UEC杯世界計算機圍棋賽決賽中，騰訊 AI Lab研發的圍棋人工智能程序“絕藝”（Fine Art）擊敗日本開發的“DeepZenGo”，以11戰全勝的戰績奪冠，就瀟灑地展示了實驗室的算法實力。

騰訊副總裁姚星曾表示，和集團其他更多針對于產品應用而展開研究的團隊不同，騰訊AI Lab 的目標是增強騰訊的人工智能原創性、基礎性研究。從上述入選論文主題也可以看出，研究主題更多體現為方法論的突破。其中，雷鋒網此前報道《深度學習集體瓶頸，產業化加速時代CV研究出路在哪里？| CVPR 2017》指出，「Diverse Image Annotation」用少量多樣性標簽表達盡量多的圖像信息，以及「Deep Self-Taught Learning for Weakly Supervised Object Localization」討論的弱監督學習等作品，體現了當前CV研究遭遇瓶頸而又晨光微啟的時代中一個創新突破的方向。

那么，這些論文成果背后的想法，以及騰訊AI Lab對未來CV未來研究創新的判斷是怎樣的呢？CVPR 2017期間，雷鋒網AI科技評論與AI Lab 計算機視覺中心總監劉威博士進行了交流，以下是對話實錄（有刪減）：

雷鋒網：這是您第幾次參加CVPR？

劉威：我參加CVPR有超過10年歷史，最早一次是2005年。

雷鋒網：您曾說，CVPR的口頭報告一般是當年最前沿的研究課題，在學界和工業界都影響很大。能否談一談您對今年CVPR的看法？

劉威：在本屆CVPR里，錄取論文涉及的領域占比最高的五類是：計算機視覺中的機器學習（24%）、物體識別和場景理解（22%）、3D視覺（13%）、低級和中級視覺（12%）、分析圖像中的人類（11%）。

從我們研究方向和興趣出發，團隊也非常關注其中的五個前沿領域：低中層視覺、圖像描述生成、3D視覺、計算機視覺與機器學習、弱監督下的圖像識別等。

雷鋒網：據了解，這次實驗室重點解析了《視頻的實時神經風格遷移》「Real Time Neural Style Transfer for Videos」這一篇，為什么是選中這一篇呢？

劉威：團隊在本屆CVPR上有六篇文章被錄取，雖然數量不多，但我對質量還算滿意。這篇論文所研究的實時視頻濾鏡技術，已在騰訊QQ手機版上線，實現基礎研究到應用的迅速轉化，形成了一個較好的閉環，與我們“學術有影響，工業有產出”的研究目標相契合。

雷鋒網：《視頻的實時神經風格遷移》這一個突破，將會給目前的視頻處理和應用帶來什么變化和價值？

劉威：該研究成果表明在訓練時加入對視頻時域一致性的考慮，能夠約束前向神經網絡生成時域一致的編輯結果。

在過去很長一段時間內，業界流行的圖像濾鏡通常只是對全局顏色屬性的調整，比如亮度、色相、飽和度等。在2016年的CVPR，Gatys等人首創性地提出將深度神經網絡應用于圖像的藝術風格遷移，使得輸入圖像能夠模仿如梵高的星空、莫奈的日出印象等任何類型的藝術風格，效果驚艷。

Gatys等人工作雖然取得了非常好的效果，但是缺點是基于優化，非常耗時；到2016 ECCV時，Johnson等人提出了使用深度前向神經網絡替代優化過程，實現了實時的圖像風格遷移，修圖工具Prisma隨之風靡一時。但直接將圖像風格遷移的方法應用到視頻上，卻會使得原本連貫的視頻內容在不同幀中轉化為不一致的風格，造成視頻的閃爍跳動，嚴重影響觀感體驗。為了解決閃爍問題，Ruder等人加入了對時域一致性的考慮，提出了一種基于優化的視頻藝術濾鏡方法，但速度極慢遠遠達不到實時。

騰訊AI Lab使用深度前向卷積神經網絡，探索視頻藝術風格快速遷移的可能，提出了一種全新的兩幀協同訓練機制，保持了視頻時域一致性，消除了閃爍跳動瑕疵，同時保證視頻風格遷移能夠實時完成，兼顧了視頻風格轉換的高質量與高效率。

類似的方法也有望能夠助力其他圖像編輯方法向視頻推廣。

雷鋒網：在這六篇論文成果中，除了通用的視頻媒體解析，也涉及到醫學等細分領域的研究，請問騰訊AI Lab如何選擇研究方向？

劉威：在基礎和前沿研究方向上，CV團隊目前聚焦中高層視覺，尤其視頻等可視結構數據的深度理解，同時也在重要的交叉領域發力，如視覺+NLP、視覺+信息檢索等。

正在進行或計劃中的研究項目兼具了挑戰性和趣味性，包括超大規模圖像分類、視頻編輯與生成、時序數據建模和增強現實，這些項目吸引了哥倫比亞和清華等海內外知名大學的優秀實習生參與。

雷鋒網：實際應用中，似乎很多時候對圖像的處理不只是視覺問題，更多可能是涉及NLP的方法，對于這些交叉的現象，能否結合實際應用來談談您的看法？

劉威：現在互聯網上的數據很多都是視覺與文本信號共同出現，譬如騰訊視頻，不僅有視頻信息，還有音頻信息，還有相應的字幕、評論和彈幕等信息——如何挖掘或者學習它們之間的相關性也是業界的研究熱點。近年來計算機視覺+NLP相結合，出現了很多熱點的研究問題，譬如圖像文本匹配、圖像描述生成、圖像問答等。

今年的CVPR的其中一個keynote也是邀請了NLP領域斯坦福大學的知名教授Dan Jurafsky，討論了language方面的研究進展。因此，多個交叉領域的研究，更能推動研究成果在實際業務場景中的應用。

雷鋒網：在《Deep Self-Taught Learning for Weakly Supervised Object Localization》和《Diverse Image Annotation》中提到的方法似乎都更強調了機器學習的自主性，請問這是否代表著哪個領域的一些突破？

劉威：我認為這在研究的實用價值上實現了一定突破。以第一篇文章為例，它描述的是從較少的、質量低下的數據中進行的模型學習。模型在不斷學習后，性能增強，從而能自主地選擇更多數據、并選取其中質量更高的進行模型訓練，提升模型性能，從而實現模型的自主學習。

這種依靠模型自身達到數據從少到多，從差到好的自主獲取過程，在如今海量數據且質量良莠不齊的情況下更具有實用指導價值。

雷鋒網：在今年的CVPR會議上，一個據稱要接棒ImageNet的WebVision比賽也公布了第一期獲獎名單，后者相比數據標注的分析處理，它更強調圖像學習和理解，請問如何看待這個事情？實現所謂圖像的學習和理解，當前存在哪些挑戰？未來要實現這個突破，還要經歷一個怎樣的創新期？在這個創新過程中，哪些技術比較有潛力？

劉威：2012年深度學習技術的興起，讓計算機視覺自此有了長足發展。除了物體檢測與識別這類經典的中層視覺問題，在圖像去噪、去模糊、超分辨率和語義分割等低層視覺問題解決上也有了很大的飛躍。

從最近兩屆 CVPR 廣受關注的論文來看，未來CV領域的研究除了會繼續提升經典視覺問題的算法性能，伴隨著新數據集設計及細分研究領域上的新挑戰，一些有趣且有挑戰的研究問題也將會受到更大關注。我個人認為，視覺+NLP的交叉將持續升溫，視頻分析理解（包括視頻分類、視頻物體分割等）的研究將再上一個臺階。

AI慕課學院近期推出了《NLP工程師入門實踐班：基于深度學習的自然語言處理》課程!

三大模塊，五大應用，海外博士講師手把手教你入門NLP，更有豐富項目經驗相授；算法+實踐，搭配典型行業應用；隨到隨學，專業社群，講師在線答疑！

課程地址：http://www.mooc.ai/course/427

加入AI慕課學院人工智能學習交流QQ群：624413030，與AI同行一起交流成長

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

溫曉樺

編輯

掃描關注作者微信

發私信

當月熱門文章