如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

本文作者：楊曉凡

2017-10-21 17:43

導(dǎo)語：新穎、高通用型的端到端自動(dòng)駕駛方案

雷鋒網(wǎng) AI 科技評論按：自動(dòng)駕駛是人工智能落地的重要應(yīng)用之一，許多業(yè)界公司和學(xué)校實(shí)驗(yàn)室都在以自己的方法研究自動(dòng)駕駛系統(tǒng)。本次雷鋒網(wǎng) AI 科技評論請到了許華哲博士介紹他們團(tuán)隊(duì)研究的端到端自動(dòng)駕駛系統(tǒng)。

許華哲是UC Berkeley 博士，師從 Prof. Trevor Darrell。對計(jì)算機(jī)視覺、自動(dòng)駕駛、強(qiáng)化學(xué)習(xí)感興趣。本科畢業(yè)于清華大學(xué)電子工程系。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這次分享主要基于徐華哲和他的同學(xué)們發(fā)表的CVPR2017的收錄文章「End-to-end Learning of Driving Models from Large-scale Video Datasets」，這是對端到端自動(dòng)駕駛的一個(gè)嘗試。除了文章本身，許華哲也會(huì)介紹學(xué)術(shù)角度上自動(dòng)駕駛領(lǐng)域中有意思的任務(wù)和問題。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

分享的內(nèi)容包括：

自動(dòng)駕駛的前世今生
許華哲他們發(fā)表的超大規(guī)模數(shù)據(jù)集
為了解決自動(dòng)駕駛問題，如何用數(shù)學(xué)公式定義它
論文中構(gòu)建的FCN-LSTM模型
論文中用到的新技巧“Learning with privileged information”，以及實(shí)驗(yàn)結(jié)果

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

自動(dòng)駕駛主要分為這樣幾類：基于規(guī)則的自動(dòng)駕駛系統(tǒng)，端到端的自動(dòng)駕駛系統(tǒng)（輸出直接是對車的操作），綜合性方法（Intermediate，決策系統(tǒng)的輸入是前處理系統(tǒng)的輸出）。最后還有一個(gè)研究方向是對未來會(huì)發(fā)生的事情做預(yù)測以便規(guī)避風(fēng)險(xiǎn)。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

圖中是基于規(guī)則的自動(dòng)駕駛系統(tǒng)的經(jīng)典工作，檢測出路上的車和車道，然后進(jìn)行決策。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

基于規(guī)則的系統(tǒng)，好處是在工業(yè)界得到了廣泛使用，比如GoogleX的自動(dòng)駕駛就是以基于規(guī)則的系統(tǒng)為主；以及系統(tǒng)的可解釋性非常強(qiáng)。不好之處是難以應(yīng)對不確定的情況，以及在復(fù)雜的情況下無法對所有可能的操作進(jìn)行建模。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

完全端到端的方法中早期的典型工作是ALVINN，淺層神經(jīng)網(wǎng)絡(luò)的結(jié)果已經(jīng)表明端到端學(xué)習(xí)有形成自動(dòng)駕駛系統(tǒng)的潛力。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

Yann LeCun提出的DAVE已經(jīng)可以回避路上的障礙物。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

在2017年10月最新的文章中，已經(jīng)可以通過高階的運(yùn)動(dòng)意圖對低階的實(shí)際駕駛操作進(jìn)行條件（conditioned）控制，在許華哲看來已經(jīng)是水平最領(lǐng)先的文章。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

不過話說回來，這個(gè)領(lǐng)域影響最大的還是NVIDIA的這篇文章，第一次借助三個(gè)攝像頭用端到端的方法開起了真車。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

端到端駕駛的好處是，模型可以直接對圖像輸入作出回應(yīng)，不需要人類干預(yù)；壞處是，系統(tǒng)對于不同的車輛系統(tǒng)需要逐一校準(zhǔn)，以及解釋性差

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這項(xiàng)綜合自動(dòng)駕駛系統(tǒng)的典型方法中，用深度學(xué)習(xí)方法學(xué)到一系列行駛中的路況信息，然后把這些路況信息輸入決策模型；決策模型中則可以再設(shè)定一些規(guī)則。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這種方法的解釋性介于端到端和基于規(guī)則的系統(tǒng)之間，但還是需要人工定義許多規(guī)則，仍然有“無法完全定義系統(tǒng)規(guī)則”的問題

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

未來視頻預(yù)測的目的是幫助訓(xùn)練自動(dòng)駕駛系統(tǒng)，效果還有很多提升的空間，但是許華哲認(rèn)為與現(xiàn)階段各大自動(dòng)駕駛平臺的自動(dòng)駕駛模擬器相比，這方面研究的意義還有待討論。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

接下來，值得聊的話題是數(shù)據(jù)集。大家都知道ImageNet對深度學(xué)習(xí)領(lǐng)域有著深遠(yuǎn)的影響，因?yàn)樗峁┝藱z驗(yàn)算法的絕佳條件。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

從近年的錯(cuò)誤率顯著下降來看，大家都認(rèn)為圖像分類問題是一個(gè)近乎于解決了的問題，ImageNet就在其中起到了非常大的貢獻(xiàn)。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

那么，許華哲認(rèn)為自動(dòng)駕駛領(lǐng)域也需要一個(gè)起到同樣作用的數(shù)據(jù)集，它應(yīng)當(dāng)由眾包得到，應(yīng)當(dāng)是真實(shí)的、足夠難的、有一個(gè)明確的任務(wù)目標(biāo)

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

對于任務(wù)目標(biāo)，他們把它公式化為了一個(gè)預(yù)測車輛未來位置的問題。

這樣做的好處是，泛化性強(qiáng)，可以運(yùn)用于對任意的車輛，也可以用未經(jīng)過校準(zhǔn)的數(shù)據(jù)；他們的模型是可以端到端訓(xùn)練的；同時(shí)模型可以一次預(yù)測多個(gè)方向

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

模型中要預(yù)測的egomotion用方向角α和位移s描述，這樣也就不需要直接對車輛內(nèi)的方向盤和踏板進(jìn)行控制，簡化了系統(tǒng)的前期研究。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

模型的數(shù)學(xué)定義如上圖，評估給定的狀態(tài)s和動(dòng)作a的得分，其中s包括視覺信息和車輛的當(dāng)前狀態(tài)；a可以是分離的幾個(gè)狀態(tài)，也可以是連續(xù)的數(shù)值輸出；最精確的是輸出6個(gè)自由度上的運(yùn)動(dòng)

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

下一個(gè)問題就是如何評估這個(gè)模型。借助數(shù)據(jù)集的話，借助語言模型里perplexity預(yù)測的思路，把過去的狀態(tài)作為序列，預(yù)測序列中的下一個(gè)元素

在他們的數(shù)據(jù)集之前，大家比較熟悉幾個(gè)數(shù)據(jù)集包括KITTI、Cityscape、英特爾的GTA。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

KITTI的特點(diǎn)是數(shù)據(jù)量比較小，但圖像質(zhì)量高，數(shù)據(jù)種類豐富，橫向很寬

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

Torcs是在游戲里采的數(shù)據(jù)

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

Cityscape是一個(gè)高質(zhì)量的圖像語意分割數(shù)據(jù)集，但是并沒有放出對應(yīng)的視頻

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

英特爾的GTA數(shù)據(jù)集也是以語意分割為主，雖然基于虛擬的游戲環(huán)境但是很逼真，可以看作最接近真實(shí)世界的游戲

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

幾個(gè)數(shù)據(jù)集做對比的話，場景的豐富程度上KITTI力壓所有數(shù)據(jù)集，其余更多方面則都有缺失

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

時(shí)長方面，Oxford的最長，圍繞城市采了200小時(shí)數(shù)據(jù)。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這幾個(gè)數(shù)據(jù)集都不算令人滿意。為了大幅度提升時(shí)長和豐富程度，許華哲他們想到了眾包的方法，與Uber合作，采集、使用了司機(jī)視角的視頻。這個(gè)數(shù)據(jù)集的特點(diǎn)是基于真實(shí)世界的、第一人稱視角，從右側(cè)樣例里可以看到內(nèi)容也非常豐富。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

最重要的是，這個(gè)數(shù)據(jù)集也是足夠長的，比現(xiàn)存的任何數(shù)據(jù)集都要多出2個(gè)數(shù)量級。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這樣對比下來，他們的數(shù)據(jù)集BDD-V就全面領(lǐng)先于其它的數(shù)據(jù)集

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

BDD-V數(shù)據(jù)集更多的指標(biāo)如上圖，30fps/720p，包括了慣性傳感器IMU、陀螺儀Gyroscope、GPS和指南針的數(shù)據(jù)，而且是全面開放的。許華哲還偷偷透露，除了這個(gè)視頻數(shù)據(jù)集，他們還會(huì)同步發(fā)布其它用于駕駛?cè)蝿?wù)的高質(zhì)量、大規(guī)模數(shù)據(jù)集。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這里正式介紹文章中的內(nèi)容，一張圖像輸入到模型中后，模型要判斷車如何行駛，最后輸出中綠色部分表示可能的動(dòng)作的概率分布（離散或者連續(xù)）。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

論文中使用的模型結(jié)構(gòu)是Dilated Fully Convolutional Networks+LSTM+Segmentation Loss。FCN用來保留空間信息，LSTM對之前時(shí)間中的信息加以利用，Segmentation語義分割則是為了把車輛從背景中分離出來（這部分屬于Privileged Learning，等下還會(huì)講到）。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

上圖顯示的是預(yù)測離散的車輛動(dòng)作（也就是前后左右）的結(jié)果，G代表ground truth，P代表預(yù)測的結(jié)果。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

對于紅綠燈也作出了合理的預(yù)測結(jié)果（黃燈時(shí)前進(jìn)和停止一半一半，紅燈時(shí)預(yù)測結(jié)果都是停止）

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

對于預(yù)測連續(xù)的車輛動(dòng)作，沿著路的時(shí)候能判斷出“不能右轉(zhuǎn)”，到了路口就有了更多方向的選擇

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

在連續(xù)預(yù)測中，有個(gè)重要問題是能否預(yù)測多個(gè)模態(tài)。可以看到，到了路口時(shí)預(yù)測結(jié)果明顯分為了兩個(gè)部分。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

這里，為了更好地展示模型學(xué)到的特征，徐華哲從模型中抽出了conv-4層學(xué)到的特征。對于右側(cè)的街道圖，左側(cè)是模型注意力的heat-map；兩圖并不是完全對齊的。可以看到，行車線、紅綠燈、騎車的人和汽車（表現(xiàn)為兩個(gè)車輪）都獲得了很高的注意力。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)

Privileged Learning是指，模型一邊預(yù)測未來的運(yùn)動(dòng)，一邊訓(xùn)練一個(gè)語義分割網(wǎng)絡(luò)，然后用語義分割網(wǎng)絡(luò)更好地幫助模型做運(yùn)動(dòng)預(yù)測。P1、P2是Baseline，P3是帶有Privileged Learning之后的結(jié)果，對圖中這樣“半輛車”的情況有更好的識別能力。

如何用超大規(guī)模真實(shí)駕駛視頻數(shù)據(jù)集做端到端自動(dòng)駕駛 | 分享總結(jié)