AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

本文作者：楊文

2018-03-07 17:12

專題：AAAI 2018

導語：視頻行為檢測新方法

雷鋒網 AI 科技評論按：互聯網上以視頻形式呈現的內容在日益增多，對視頻內容進行高效及時的審核也變得越來越迫切。因此，視頻中的行為檢測技術也是當下熱點研究任務之一。本文主要介紹的就是一種比傳統視頻行為檢測方法更加有效的視頻行為檢測模型。

在近期雷鋒網 GAIR 大講堂舉辦的線上公開上，來自北京大學深圳研究生院信息工程學院二年級博士生黃靖佳介紹了他們團隊在 AAAI 2018 上投稿的一篇論文，該論文中提出了一種可以自適應調整檢測窗口大小及位置的方法，能對視頻進行高效的檢測。視頻回放地址：http://www.mooc.ai/open/course/459

黃靖佳，北京大學深圳研究生院信息工程學院二年級博士生。2016 年畢業于華中科技大學計算機學院信息安全專業，獲學士學位。現研究方向為計算機視覺、行為檢測、增強學習等。

以下是 AI 科技評論對嘉賓分享的內容回顧。

分享主題：AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

分享提綱：

行為檢測任務的介紹
SAP模型的介紹
實驗效果介紹
總結

分享內容：

大家好，我的分享首先是介紹一下行為檢測的應用背景，接下來介紹我們團隊提出的 SAP 模型，以及模型在實驗數據集上的性能，最后是對本次分享的總結。

行為檢測任務的介紹

一般對于視頻目標行為檢測任務的解決方法是：在一整段視頻中，對行為可能發生的時間段做一個定位，做完定位之后，把可能發生的行為送到分類器中做分類。這就是比較常用的「兩階段方法」。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

但是這種方法在解決任務時存在兩個難點。

首先是對于一個沒有切割過的視頻，比如在圖中這個視頻中，所需要檢測的目標是一個三級跳運動，三級跳在不同的情況下，根據人的不同，所持續的時間也是不同的。

第二個難點是，目標時間出現的位置是在視頻中的任意時間點。

所以說用「兩階段方法」進行目標行為預測，會產生非常多不同尺度，不同位置 proposal。最簡單的方法是用不同尺度的滑動窗口，從前到后滑動，產生非常多的 proposal，然后再做分類。這種方法雖然行之有效，但時間復雜度和計算復雜度都相當高，使得在完成這項任務時往往需要花費大量的計算資源。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

SAP模型的介紹

為了避免這種低效的檢測方法，我們提出了一種可以自適應調整檢測窗口大小及位置的方法，對視頻進行高效的檢測。

我們最開始的想法是能不能僅使用一個滑動窗口，只需要從頭到尾滑動一遍就完成 proposal 產生過程呢？

這就必須要求窗口能不斷地自適應地根據窗口所覆蓋的內容，能夠不斷調節窗口的大小，最終的窗口大小能精確覆蓋目標運動，從而得到檢測的窗口區間。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

我們使用增強學習作為背后的模型支撐來完成這樣的循環過程，達到我們的目的。下面是 SAP 模型的框架圖。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

關于 Temporal Pooling Layer

在原有的 C3D 模型中，要求輸入的視頻幀是固定的，一般是 16 幀或 8 幀。以 16 幀為例，當視頻幀多于 16 幀，就需要對視頻幀下采樣，采樣成 16 幀，送到視頻中進行處理，這樣在采樣過程中會丟失非常多細節信息，造成特征表達不準確等問題。

而我們提出的 Temporal Pooling Layer 的輸入幀可以是任意長度。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

我們在增強學習中的獎勵設置機制。在增強學習中，對于一個 agent，如果 agent 執行了一個動作后，我們認為是執行正確的，就給一個獎勵；如果認為是錯的，就給一個懲罰。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

SAP 模型的訓練過程，可到文末觀看嘉賓的視頻回放，或關注嘉賓的 GitHub 地址獲取相關代碼。 AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

SAP 模型的測試

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

實驗過程

我們的實驗是在 THUMOS'14 數據集展開的，用它的 validation set 訓練模型，在 test set 上進行實驗評估。我們使用了是以下兩個衡量標準。第一個是 recall 值和平均 proposal 數量函數第二個是 recall 和 IoU。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

proposal 做分類后的評判標準是：Average Precison 和 mAP

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

檢測性能的結果

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

上圖紅色圈注的部分比較的是不同的模型，在取相同的 proposal 數量，用同樣的分類器做分類，哪個模型的性能會更好。結果發現，在只有 50 個 proposal 的時候，我們的方法表現的最好。

AAAI 2018 論文解讀：基于強化學習的時間行為檢測自適應模型 | 分享總結

總結

首先，我們提出了 SAP 模型，能夠不斷自適應調整當前觀測窗口大小，從而使觀測窗口能夠更為精確覆蓋可能存在目標運動的區域。
我們的方法是通過增強學習來驅動，讓 agent 通過增強學習網絡學習到調整策略，使它調整自身的位置和大小。
在 C3D 模型中，我們還提出了 temporal pooling layer，使得模型能夠處理不限于 16 幀的視頻片段，并且能夠獲得比均勻采樣所得到的特征表達更有效，更有利于做后面的視覺任務。
最后，我們在 THUMOS 14 數據集上驗證了我們的模型，得到了不錯的結果。

代碼相關資料GitHub地址：https://github.com/hjjpku/Action_Dection_DQN

雷鋒網GAIR大講堂視頻回放地址：http://www.mooc.ai/open/course/459

更多免費直播視頻，請關注微信公眾號：AI科技評論。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。