ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類

本文作者： camel

2019-11-29 11:12

專題：ICCV 2019

導語：更懂車，更懂人~

語音播放文章內容

由深聲科技提供技術支持

本文由汽車之家王磊向雷鋒網AI科技評論投稿，未經允許禁止轉載。

作者 | 王磊

本文介紹了汽車之家團隊在ICCV 2019一篇關于視頻理解論文相關的工作。針對視頻多標簽分類的問題，論文提出了將視頻多標簽之間相關性特征加入到網絡之中，結果證明該方法可以顯著的提高視頻多標簽分類效果。

一、背景介紹

隨著視頻應用的不斷普及，視頻內容理解與分析成為計算機視覺領域的一個熱門研究方向。2017年，Google開源了其大規模視頻內容數據集Youtube8M，鼓勵研究者通過該數據集利用深度學習技術進行視頻理解的研究。

最新的Youtube-8M數據集包括兩部分，第一部分為video-level（視頻層級）的標注，該部分總計包含610萬個已標注的視頻，3862個分類，平均每個視頻標注了3個標簽；第二部分為segment-level（視頻片段標注），該部分挑選了1000個分類，對視頻中隨機抽取的5秒片段進行標注，該部分總共有23.7萬個標注數據；值得注意的是，segment-level的數據標注僅標注了抽取的5秒視頻片段是否屬于某一特定標簽，并沒有標識該視頻片段的所有標簽。

二、標簽相關性

近年來，視頻理解成為計算機視覺領域的一個熱點方向。相比較圖像內容，視頻內容更為復雜多樣，因此對于視頻內容而言，單個標簽很難完整的表征視頻的內容，對于視頻內容理解分析大多為多標簽的分類問題。

在視頻標簽中，很多標簽之間會有一定的相關性并成對出現；如圖一所示（標簽從Youtube8M數據集中選?。?，當寶馬（BMW）、發動機（Engine）的標簽出現時，汽車（Car）的標簽大概率也會出現；但是當汽車的標簽出現時，寶馬標簽出現的可能性則非常低。

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類

圖1.標簽有向圖示例

通過對Youtube8M數據集的部分標簽數據進行分析，可以得到一個圖來表征各個標簽之間的關系，如圖二所示。圖二中每個不同顏色的節點代表一個獨立的標簽類別，不同節點之間的連線代表著兩個節點之間是否有相關性，節點之間連線上的數值則代表了不同的標簽之間聯系的緊密程度，數值越大，則聯系越高；沒有聯系的節點之間則不會有線連接。

通過對視頻的多標簽之間的相關性進行建模分析，并通過圖神經網絡將標簽類別映射為對應類別分類器加入到最終的視頻多標簽分類網絡之中，可以提升整體模型的學習分類能力。

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類

圖2.標簽相關性Wighted-Graph表示

三、圖卷積神經網絡

如何有效獲取目標標簽之間的相關性？如何利用這些標簽相關性提升網絡的特征學習以及分類表現？這是視頻多標簽分類的兩個重要問題。由于圖的特點可以很好的表征各個標簽之間的相互依賴性，因此我們選擇基于圖神經網絡進行建模學習，并用于最終視頻分類網絡中。一個圖神經網絡的基本結構如圖三所示：

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類圖3.圖神經網絡基本結構

Input輸入有兩個，一個為特征描述矩陣H（n*d），另一個為相關系數矩陣A（n*n），其中n為節點個數，即所有標簽的個數，d為特征的維度，特征維度根據采用的CNN結構決定。

相關系數矩陣是GCN網絡中表征標簽關系的一個矩陣，因此如何構建相關系數矩陣 A 就成了GCN 模型中一個非常重要的問題。由于Youtube8M數據集有超過600萬的video-level的視頻標注數據，因此我們可以通過挖掘標簽在數據集中的共現情況來初始化相關系數矩陣A。 ${N}_{i}$ 為標簽i在數據中出現的次數， ${M}_{ij}$ 為標簽i和標簽j兩個標簽一起出現的概率，兩者相除便可以得到不同標簽之間的條件概率矩陣P。

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類

考慮到標注數據中可能存在不準確的情況以及標簽在訓練和測試集中共現的次數可能會相差比較大，因此我們設置了一個閾值剔除相關性比較弱的噪聲的影響。對于上面得到的矩陣P，只有其值大于某特定值（論文中為0.5）的時候才會考慮，否則矩陣中這兩個標簽的相關度會設置為0,因此優化后的條件概率矩陣如下所示：

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類

Hidden Layer用來學習節點之間的相關信息并更新節點表示，每一個Hidden Layer都可以用一個非線性函數表示：

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類

Hidden Layer可以有多層，堆疊多個 GCN 層來對節點之間交織的復雜關系進行建模。在本論文中Hidden Layer為兩層，通過訓練學習便可以得到優化后的表征標簽相關性的矩陣Output，并用于幫助視頻標簽分類。

四、整體網絡

最終的完整網絡結構如圖四所示，我們使用InceptionV3來提取輸入視頻的特征；NeXtVLAD網絡是第二屆Youtube8M比賽單模型冠軍網絡，該網絡可以很好的視頻的多維度特征進行聚合，并且在降低特征維度的同時還能很好的保證模型性能；在網絡的下半部分，我們用一個雙層的GCN網絡來幫助進行最后的視頻標簽分類。最終的對比實驗中，加入GCN后的視頻多標簽分類網絡MAP（Mean-Average-Precision）提高了接近一個百分點，GCN網絡的加入顯著性顯著的提高了視頻多標簽的分類能力；也證明了對于多標簽分類任務，通過研究多標簽之間的相關依賴關系提升網絡分類能力是一個很好的方向。

ICCV 2019 論文解讀：用圖神經網絡改善視頻的多標簽分類