專欄 | 蘋果杠上百度，激光雷達物體識別成績大對比

本文作者：周彥武

2017-12-17 21:32

導語：看蘋果、百度對激光雷達物體識別成績對比。

雷鋒網按：本文為雷鋒網專欄，作者系佐思產研研究總監周彥武，雷鋒網經授權發布。

一直以來，蘋果都以其追求完美的文化和極度保密的風格著稱。雖然外界一直努力捕風捉影，但蘋果很少對外披露自動駕駛研發的進展或動態。

不過在今年11月，蘋果發表了一篇名為VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection 的論文。

在這篇論文中，蘋果將神經網絡命名為 VoxelNet，蘋果通過激光雷達點云訓練它執行目標識別任務。論文表明：蘋果正在打造一種自動駕駛新方法，通過一個名為“VoxelNet”的全新系統，幫助計算機更準確地識別三維物體。其通過激光雷達傳感器讀取數據，讓自動駕駛汽車理解其他汽車、自行車和行人的精確地理位置。該項研究不僅表明了蘋果的自動駕駛汽車研究的確屬實，也顯示了蘋果正在與激光雷達相關公司進行合作。

通過激光雷達研究物體識別的并不只有蘋果。

2016年，百度發表了一篇名為 Vehicle Detection from 3D Lidar Using Fully Convolutional Network 的論文。在更早的2015年，百度發表過一篇3D Fully Convolutional Network for Vehicle Detection in Point Cloud 的論文。此外，清華與百度還有一篇論文：Multi-View 3D Object Detection Network for Autonomous Driving。

2015年9月，卡梅隆大學機器人學院的Daniel Maturana 和Sebastian Scherer發表了VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition 一文。

2017年10月德國弗賴堡大學機器視覺系發表了Orientation-boosted Voxel Nets for 3D Object Recognition。歐洲機器視覺權威瑞士蘇黎世理工學院則有SEMANTIC3D.NET: A NEW LARGE-SCALE POINT CLOUD CLASSIFICATION BENCHMARK。

上述論文都是對激光雷達物體識別的研究。

（2018年1月16日，雷鋒網新智駕將在硅谷舉辦GAIR硅谷智能駕駛峰會，我們也邀請了重磅嘉賓如全球頂級的激光雷達公司Velodyne，初創激光雷達公司Innovusion進行主題報告分享和圓桌討論。更多峰會信息點擊 https://gair.leiphone.com/gair/gairsv2018。敬請大家關注。）

激光雷達物體識別最大的優點是可以完全排除光線的干擾，無論白天還是黑夜，無論是樹影斑駁的林蔭道，還是光線急劇變化的隧道出口，都沒有問題。其次，激光雷達可以輕易獲得深度信息，而對攝像頭系統來說這非常困難。再次，激光雷達的有效距離遠在攝像頭之上，更遠的有效距離等于加大了安全冗余。最后，激光雷達也可以識別顏色和車道線。

實際上，激光雷達與攝像頭沒有本質區別，其最大區別除了激光雷達是主動發射激光，是主動傳感器外，只是光電接收二極管不同，攝像頭可以做到的，激光雷達都能夠做到，只是目前激光雷達的點云密集度還不能和300萬像素級攝像頭比。

對與固態激光雷達來說，絕大部分固態激光雷達都是提供3D圖像的，與其說是激光雷達，不如說是3D圖像傳感器更為合適。

在清華大學與百度的論文 Multi-View 3D Object Detection Network for Autonomous Driving（2016年11月）中，使用的便是攝像頭和激光雷達數據融合做物體探測與識別。

但蘋果認為這種做法沒有提升，反而帶來很多麻煩。因為攝像頭需要時間同步和與激光雷達做聯合空間標定，攝像頭有效距離有限，性能與距離關聯密切。兩者在中遠距離上難以融合，在近距離效果會略好。

與攝像頭用像素（Pixel）這個詞一樣，激光雷達是3D的，因此有Voxel（體素）這個詞。Pixel是二維電腦圖像的最小單位，Voxel則是三維數據在三維空間分割上的最小單位，很早就應用于三維成像、醫學影像（比如CT）等領域。

對物體識別是機器理解人類社會環境的基本能力，人類文明主要是用文字和語言承載的，這是一種完全社會化的概念，因此不得不采用人類的學習方式，也就是深度學習。

激光雷達可以用回波寬度或反射強度信息輕易識別某一類物體，如車道線，草地，建筑物，道路，樹木，并且是物理識別，而不是攝像頭那樣的根據數學概率算法得出的識別，物理識別的準確度遠高于概率推算。

但要具體識別，比如物理方式，激光雷達只能識別出行人，具體是成年人、老人、小孩還是嬰兒就無能為力。再比如，路邊的交通標識，激光雷達只能知道是一塊金屬牌或塑料牌，但是是牌子什么內容就不知道了，這時深度學習就可以派上用場。

深度學習通俗的理解就像人類訓練動物，比如教狗與你握手（爪），狗做對了，就給一點食物獎勵或者撫摸獎勵，這就是一種強化學習的機制。假如狗沒做對，就會挨批。這就像神經網絡的訓練過程，識別正確就增加這部分的權重值（食物獎勵），識別錯誤就減少權重值（挨批）。

如此不斷地強化，最終你一伸手，狗也伸手（爪）跟你握手。

專欄 | 蘋果杠上百度，激光雷達物體識別成績大對比

*蘋果Voxel Net架構

目標檢測與識別領域早期為DPM，2013年11月，目標檢測領域公認的大神Ross Girshick推出R-CNN，2015年4月進化為Fast R-CNN，2015年6月進化為Faster R-CNN，成為今日目標檢測與識別領域公認最好的方法，也是可以完全端對端地實現。

激光雷達的目標檢測與識別自然也是要用Faster R-CNN。Faster R-CNN 從2015年底至今已經有接近兩年了，但依舊還是物體探測（Object Detection）領域的主流框架之一，雖然推出了后續 R-FCN，Mask R-CNN 等改進框架，但基本結構變化不大。同時不乏有SSD，YOLO等骨骼清奇的新作，但精度上依然以Faster R-CNN為最好。

從RCNN到fast RCNN，再到本文的faster RCNN，目標檢測的四個基本步驟（候選區域生成，特征提取，分類，位置精修）終于被統一到一個深度網絡框架之內。所有計算沒有重復，完全在GPU中完成，大大提高了運行速度。

專欄 | 蘋果杠上百度，激光雷達物體識別成績大對比

faster RCNN可以簡單地看做“區域生成網絡+fast RCNN“的系統，用區域生成網絡RPN(Region Proposal Networks)代替fast RCNN中的Selective Search方法。

不過RPN只能針對密集化的具備張量結構的數據，而激光雷達的云點是稀疏的，因此激光雷達深度學習識別物體的關鍵就是如何把點云數據轉換成具備張量結構的密集的視頻或圖像數據。

專欄 | 蘋果杠上百度，激光雷達物體識別成績大對比

蘋果就提出了一種叫VFE（Voxel Feature Encoding）的方案（如上圖）。

首先將點云數據轉換為體素數據，基本上點云的三維數據就是體素的三維數據。根據體素所在的位置對點（點云）進行分組，把這些分組數據全部一層層堆疊起來，然后通過全卷積神經網絡（FCN）形成有4（速度向量、X、Y、Z）張量的數據結構。

接下來看FCN，FCN將傳統CNN中的全連接層轉化成卷積層，對應CNN網絡FCN把最后三層全連接層轉換成為三層卷積層。

在傳統的CNN結構中，前5層是卷積層，第6層和第7層分別是一個長度為4096的一維向量，第8層是長度為1000的一維向量，分別對應1000個不同類別的概率。

FCN將這3層表示為卷積層，卷積核的大小 (通道數，寬，高) 分別為 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去數字上并沒有什么差別，但是卷積跟全連接是不一樣的概念和計算過程，使用的是之前CNN已經訓練好的權值和偏置，但是不一樣的在于權值和偏置是有自己的范圍，屬于自己的一個卷積核。

因此FCN網絡中所有的層都是卷積層，故稱為全卷積網絡。

專欄 | 蘋果杠上百度，激光雷達物體識別成績大對比