0
| 本文作者: 劉偉 | 2019-11-21 09:30 |

10月27日,由雷鋒網 & AI掘金志主辦的「全球AI芯片·城市智能峰會」,在深圳大中華喜來登酒店盛大召開。
延續雷鋒網大會一貫的高水準、高人氣,「全球AI芯片·城市智能峰會」以“城市視覺計算再進化”為主題,全面聚焦城市視覺與城市算力領域,是業內首個圍繞“算法+算力”展開的大型智能城市論壇。
峰會邀請到了極具代表性的14位業內知名專家,世界頂尖人工智能科學家、芯片創業大牛、產業巨頭首席技術高管、明星投資人齊聚,為行業資深從業者們分享前瞻的技術研究與商業模式方法論。
其中,蘇州科達首席科學家、前博通圖像事業部資深科學家章勇作為下午場的第五位演講嘉賓登臺,圍繞《AI超微光技術與邊緣算力選擇》這一主題發表了精彩演講。
章勇表示,目前深度學習技術主要應用于模式匹配和圖像識別,例如人臉識別、車輛特征提取、視頻結構化等。而科達則將這種深度學習技術應用到前端傳感器圖像增強處理技術領域,直接對前端圖像傳感器輸出的裸數據進行圖像恢復,最大化還原低照度環境下的實際圖像效果。
這種處理技術的好處是,它突破了傳統攝像機中ISP技術的局限性。目前ISP由數十個圖像處理模塊組成,數百個參數需要人工根據經驗進行調整,不僅費時費力,而且由于傳統算法的局限性,難以在低照高噪聲的情況下顯示出圖像中有用的信息。而AI超微光技術對傳感器數據直接進行處理,運用神經網絡完成輸入圖像到輸出圖像端到端的非線性映射。不僅如此,相對于增強補光,以及多目多光譜設計的硬件解決方案,獨創的深度學習圖像增強算法,可在大幅減少卡口對補光燈的依賴的條件下,提升圖像亮度,且充分還原物體顏色與紋理等細節信息。
另一方面,這項技術也對邊緣側芯片的算力提出了巨大挑戰。面對市場上琳瑯滿目的芯片,科達結合超微光技術的場景特點,提出了六項邊緣算力芯片的篩選標準————模型運行評分、工具鏈有效性、靈活性、成本、非AI功能、TOPS/W。
依托于精簡優化的算法和所選擇的邊緣算力,蘇州科達創新性地完成了AI超微光在邊緣側的實現任務,已經形成了產品系列并申請了多項專利。
以下是章勇的全部演講內容,雷鋒網做了不改變原意的整理與編輯:
很榮幸有機會跟大家分享我們的新技術——AI超微光技術。
我今天的演講要從摩爾定律開始講起。摩爾定律說的是,集成電路上可容納的元器件數目每隔18-24個月就會增加一倍。其實AI界也有一個摩爾定律,是由IBM和UIUC的兩位學者提出的,說的是Xiv.org上的人工智能相關論文數量每隔18-24個月會增加一倍。今年6月份我去美國參加CVPR,在會場看到了CVPR論文的統計,發現它確實符合這個規律,2019的CVPR論文數呈現了倍增的趨勢。
最近我們時常聽到一些關于AI的悲觀論調,認為現在的AI是偽AI。但從學術界的趨勢來看,我們有理由堅信AI將在不遠的將來迎來持續爆發。
在人工智能落地的諸多領域中,視頻監控無疑是最成功的。視頻監控的發展經歷了四個階段,從2005年以前的模擬視頻監控時代,經過網絡數字監控時代和高清數字監控時代,最終在2015年步入了人工智能的新紀元。

過去五六年,蘇州科達每次參加安博會的主題都和AI緊密相關,今年我們的主題是“AI實戰派”。這也從側面說明AI已經在視頻監控領域生根發芽了。
那么,AI可以為視頻監控做些什么呢?概括來說,它可以用先進的深度學習算法——比如檢測、分類、回歸、跟蹤算法,衍生出對應的視頻監控應用,比如人員屬性、車輛屬性、視頻結構化等。人員屬性包括人臉識別、人像檢測、年齡識別、性別識別等;車輛屬性包括司乘人臉、車窗檢測、掛件檢測等等;視頻結構化則可以把人、車、道路的關系用語義的方式描述出來。

剛才說到的這些應用,基本都屬于圖像理解和圖像分析的范疇,是計算機視覺里的高層視覺和中層視覺任務,其主要目的是對圖像進行分析,提取里面的語義。相比之下,低層視覺任務過去在視頻監控領域的應用并不多。這次安博會,蘇州科達帶來的主要技術突破——AI超微光技術,本質上就是一項用AI加持的低層圖像處理技術。具體來說,它是一項基于深度學習算法,在邊緣側實現低照度圖像增強的技術。

為什么我們把低照微光作為AI的主要應用場景呢?因為低照微光是視頻監控領域的一大痛點。攝像機的成像原理與人眼類似。人眼成像要先有光源照射在目標物體上,光線被反射進入人眼視網膜成像。監控攝像機也是同樣的道理,反射光進入鏡頭后由圖像傳感器進行光電轉化,經過ISP處理,最終將圖像展現在我們面前。不難發現,照度是成像的關鍵。我們常說伸手不見五指,太黑了人眼看不清,其實太黑了攝像頭也拍不出來。

視頻監控有一個特點,光天化日之下發生違法犯罪事件的概率非常小,大部分有用的視頻監控信息都是在光線不好的時間段采集的。因此低照成像技術的應用場景非常廣泛,包括平安城市、雪亮工程、酒店、住宅小區等等。幾乎所有視頻監控攝像機都會注明它的低照度指標,這說明低照度是視頻監控攝像機的基本特性。

攝像機成像的過程中有許多噪聲如影隨形,包括熱噪聲、電流噪聲、空間噪聲等等。如果圖像信號很弱,噪聲很強——也就是信噪比很低,圖像就會完全淹沒在噪聲里。比如下面這頁ppt中的圖片,左邊的圖片還能看清是一個小伙子,右邊的圖片就完全看不清了,毫無價值。所以監控的重點不是拍到而是拍清,要給人家有用的信息,能分析出里面的具體內容。

那么,我們怎來解決低照監控的問題呢?最簡單的辦法,既然光線不足,那我強化補光就是了。但這樣一來也造成了很嚴重的光污染,對此相信大家都深有體會,比如晚上開車回家的時候被爆閃燈晃得睜不開眼。除了用戶體驗差,這種做法也很浪費資源,會增加系統的開銷,因為每個攝像機旁邊都要裝一個燈,非常可怕。

第二種做法是堆疊攝像機硬件。幾年前有一個技術特別熱門,叫做超星光技術,它的做法是采用超大光圈和高靈敏度的傳感器。這項技術的缺陷在于,超大光圈會影響拍攝的景深。在攝影領域,超大光圈可以產生一些特殊的藝術效果,但對視頻監控來說它卻是負面效果。此外,高靈敏度傳感器原來是用在軍事領域的,將它遷移過來無疑會大幅推高設備的成本。
這個做法下還有一個分支,叫做黑光技術,是前兩年大家非常追捧的新技術。它采用的是多目融合的技術,通過兩個鏡頭分光,或者一個鏡頭里有兩個傳感器,對可見光和紅外光進行多光譜融合。這也帶來了三點問題:一是成本增加;二是兩條光路融合,必然會導致分辨率下降;三是它無法拍攝紅外反光比較強烈的物體,也無法穿透紅外透光率低的玻璃。最后一點問題非常嚴重,因為現在絕大多數人為了隔熱都會在車窗上貼膜,它的作用實際上就是防紅外穿透。

第三種做法是通過復雜的ISP提高圖像質量。傳統方法是提高ISP數字增益,提高圖像亮度,但數字增益不區分圖像信號和噪聲,把噪聲也加大了,所以基本沒什么用。還有一種方法是放慢快門速度,但這樣一來就沒辦法捕捉高速運動的物體了,而現實中我們需要捕捉的又往往是高速運動的車輛和人,所以這個方法也行不通。還有就是各種各樣的降噪算法,比如空間和時域的降噪。這些算法本身挺好,但遇到低照的情況,由于信噪比太低,它在過濾噪聲的同時也會把圖像信號過濾掉,結果就是圖像非常模糊。
正是因為存在這樣或那樣的痛點,我們開始思考能不能把AI用到低照監控當中來。

攝像機ISP是一個從輸入圖像到輸出圖像的非線性映射,我把它描述成f(x),也就是一個二維的函數。我們知道,深度學習網絡對非線性函數有很好的逼近能力:首先,它的網絡非常深非常復雜;其次它的每個神經元里都有若干個加權函數,同時精密函數也是非線性的。所以我們采用了這樣一個方法,即對低照度場景進行有監督的深度學習訓練,讓神經網絡在傳感器輸出的數據中自動尋找并增強圖像中的有用信息。這個想法非常好,我們嘗試后也發現,它在算法模擬上是可以成功的。

整個處理流程大致是這樣的:前面輸入的過程不變,光線經過普通的鏡頭和傳感器完成光電轉換后,用深度神經網絡代替原來的ISP,把bayer圖像輸入到這個深度神經網絡后,輸入的就是人眼想看到的ISP圖像。這種做法還帶來了一個附加的好處,因為現在ISP已經進入了完全不可知的領域,它里面有數百個模塊,每個模塊又有非常多的參數要調整,完全是ISP工程師靠經驗堆疊起來的,所以ISP工程師非常值錢,而我們的方案可以省略對ISP參數的調整。

這個想法雖然很好,但在邊緣端實現起來還是會對算力提出非常大的挑戰。一般的圖像分析和理解任務,首先要對圖像進行裁剪和縮小,縮小到24×24或者300×300像素。也就是說輸入神經網絡的都是經過大幅度縮小的圖片,輸出的則是提取出來經過編碼的特征。
在AI超微光任務中,需要對逐個像素進行操作,而且圖片通常是1080P、4K甚至1200W像素的,同時我們還要對每個顏色通道進行處理,輸出的數據是輸入的三倍。因此,AI超微光任務對算力和存儲都提出了非常高的要求。此外,這個過程是在邊緣端實現的,還面臨著成本和功耗上的限制,所以選擇一顆合適的邊緣側算力芯片至關重要。

面對市場上琳瑯滿目的芯片,我們不禁陷入了困惑,到底該怎么選擇呢?有幾個參考指標:

第一個指標是TOPS。從2015年開始,邊緣側芯片的TOPS有了突飛猛進的發展,今年已經看到有16T-20T算力的邊緣側芯片出來了。但是大家并沒有明確說明TOPS是怎么計算出來的,大部分企業的計算方法都是“乘加器個數 x 工作頻率 x 2”。這個算法太簡單粗暴了,缺少對能耗的評價。如果這么計算,豈不是把兩個芯片簡單疊加在一起,算力就翻倍了?

第二個指標是TOPS/W。下面這頁ppt中是MIT一位學者統計出來的圖表,橫軸代表功耗,縱軸代表TOPS值。AI超微光的任務對于芯片有幾個要求:首先它的位寬必須大于或等于8bit,因為我們要處理的是圖像;其次,它的功耗要小于10W,因為需要部署在邊緣側;最后,TOPS/W值要大于一。上個禮拜我在美國參加Facebook的研討會,他們也在做相關的事情,他們追求的是TOPS/W值大于或等于5。

TOPS/W顯然也不是一個特別完美的指標,因為里面還涉及到利用率的問題。下面這頁ppt列出了一些常用深度神經網絡需要的算力值,我們可以看到,基本都在幾十G左右。那么為什么我們卻動輒需要幾個T的算力呢?原因前面的嘉賓介紹過,因為神經網絡非常復雜,而不管基于SIMD/SIMT架構還是數據流架構的芯片,采用的都是非常規整的體系架構,這種架構里的映射顯然有很多水分。因此,我們要看OPS的利用率,而不是峰值的OPS。

第三個指標是存儲帶寬。提到存儲帶寬就要用到屋檐模型(Roofline模型)。我們吧存儲帶寬的值用下面這頁ppt中的公式來表示。公式下面這張圖片很有意義,藍線右邊是計算受限,藍線左邊是訪存受限,如果我們想避免訪存受限,就要不斷抬升屋檐。
右邊的圖片中有三個芯片,綠色的是訪存受限,中間紅色的稍微好一些,但仍然沒有完全跨越到計算受限,最上面黃色的則完全進入到了計算受限,可以達到理論上的OPS峰值。通過Roofline模型,可以確定一個計算量與訪存量確定的算法模型,在一個算力和帶寬已知的計算平臺上,所能達到的理論性能上限。

另外一種方式是在實際硬件上或是硬件仿真器上運行各種常見的AI模型,進行評估,這是目前各大公司正在采用的方法之一。這樣的評估工具有很多,比如MLPerf,有facebook等好幾家公司背書。中國人工智能產業發展聯盟也發布了一個Benchmarking的工具。AI MATRIX是阿里巴巴內部開源的工具,ML Mark則是專門給嵌入式系統做的工具。目前國內用的比較多的是AI-Benchmark,它里面囊括了11個任務,包括圖像分類、圖像檢測、游戲動畫、圖像去波谷等。我們可以在上面跑各種AI模型然后打分。
這里舉兩個例子,一個是斯坦福的DAWNBench(右側上圖),一個是ML Perf(右側下圖),里面展示了所用的模型、對應的硬件,以及使用了哪一種算法框架。

另外,我們還要考慮算力工具鏈的性能和易用性。要看工具鏈能否對接各種不同的AI算法框架(Caffe,TF,pytorch等等),并轉化各種框架模型;以及它是否具備性能仿真器,能否給予算法人員準確的調試反饋,能否進行良好的網絡量化優化。

還有算力的靈活性:一是算力能否應對非常規的網絡,二是算力能否擴展支持的層種類,三是算力能否兼容將來可能出現的新網絡。因為網絡的變化非常快,算法人員經常能想出許多新奇的點子,這些點子在軟件仿真的時候非常好用,但一跑到真正的芯片上就會出現各種各樣的問題。
最后是邊緣算力芯片中集成的非AI功能。主要關注幾個點:一、它是否具有應用處理器核(AP)- SoC芯片;二、它是否包含其它非深度學習的圖像處理模塊;三、它是否包含視頻處理與編解碼模塊;四、它
是否有豐富的嵌入式接口用于數據傳輸和控制,比如PCIE,USB,MIPI ,Ethernet,SPI …因為我們是用在邊緣側的。

總的來說,我們針對邊緣算力的選擇提出了六項指標——模型運行評分、工具鏈有效性、靈活性、成本、非AI功能、TOPS/W。最后看哪款芯片的指標參數在雷達圖中覆蓋的面積大,就用它來完成AI超微光的任務。

當然,我們也花了幾個月的時間對網絡進行了精簡和優化,同時對嵌入式的編程進行了細致入微的優化。我們提交了有關增強算法以及邊緣側實現的數項專利。

最后給大家展示一下AI超微光的效果。
大家看下面這頁ppt,左邊圖片中的燈光參數非常亮,右邊則換成了比較弱的補光,兩張圖片都是在卡口場景。但是我們看拍出來的圖片,左邊圖片是看不見車里的人的,因為有防透膜,右邊則可以清楚地看到人臉并進行人臉識別。

下面這頁ppt是夜景,左圖的燈非常亮,右圖的燈實際比路燈還暗。我們可以看一下夜間抓拍的效果,左圖中的行人基本已經看不見了,而右圖中的行人經過超微光技術增強后清晰可見。因此超微光技術在夜間的應用有著非常重要的價值。

最后來看看人員卡口場景。下面ppt中左邊這一組是傳統人員卡口和超微光技術的對比。小區如果有非常亮的補光燈,是一件令人頭疼的事情。我們可以看到,傳統人員卡口的卡噪點多、圖像暗,基本看不清楚,右邊用了超微光技術后就清晰多了。
右邊這一組是黑光技術與超微光技術的對比,兩張圖的明暗程度完全不一樣。右邊用了超微光技術,不需要很強的補光就可以把人臉恢復的非常清晰。

我的分享就到這里,希望大家有時間到我們展臺來看看AI超微光這款新品。 謝謝大家!
問答環節:
主持人:您剛才講到超清光、超微光和黑光技術,根據我個人的理解,這些更多是依靠硬件手段來實現的。之前何愷明在CVPR提出的暗通道先驗算法主要是通過純軟件來去噪、增強圖像質量。未來可不可以只用像暗通道這樣的算法、不依賴硬件就能夠實現超威光的效果?
章勇:這是我們追求的目標。剛才你也提到了暗通道算法,其實我們現在的算法,實際上是暗通道算法的進階版。我們現在完全用了深度學習算法對每個像素進行處理,將來希望不需要再通過單純的硬件堆疊,去提升攝像機本身的性能,而是通過內部的軟件處理,特別是AI技術,能夠把最終的圖像完美呈現給大家。我們可以看到這個趨勢越來越明顯,很多手機廠家,包括蘋果、華為也開始在手機側對圖像采用這個處理方法,而不是單純的進行硬件堆疊。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。