中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

本文作者：我在思考中

2021-11-26 18:22

導(dǎo)語：結(jié)合知識(shí)進(jìn)行模式識(shí)別和理解并將結(jié)果用于決策規(guī)劃，是未來研究的方向。

感知（模式識(shí)別）是從傳感數(shù)據(jù)判斷模式的存在、類別，給出結(jié)構(gòu)描述和關(guān)系描述的過程。目前以深度神經(jīng)網(wǎng)絡(luò)為主的模式識(shí)別方法只解決了初級(jí)感知（檢測(cè)、分類）問題，屬于高級(jí)感知層面的結(jié)構(gòu)和關(guān)系理解已有一些研究進(jìn)展但還沒有解決，而結(jié)合知識(shí)進(jìn)行模式識(shí)別和理解并把結(jié)果用于決策規(guī)劃則屬于高級(jí)認(rèn)知的范疇，是未來要加強(qiáng)研究的方向。

作者 | 杏花

編輯 | 青暮

今年10月12日，2021中國(guó)人工智能大會(huì)（CCAI 2021）在成都正式啟幕，23位中外院士領(lǐng)銜，近百位學(xué)術(shù)技術(shù)精英共聚西南人工智能新高地，深入呈現(xiàn)人工智能學(xué)術(shù)研究，以及技術(shù)創(chuàng)新與行業(yè)應(yīng)用的最新成果。中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)、中科院自動(dòng)化所副所長(zhǎng)/研究員、IAPR/IEEE/CAA/CAAI Fellow劉成林教授發(fā)表了題為《模式識(shí)別：從初級(jí)感知到高級(jí)認(rèn)知》的演講，向與會(huì)者介紹了模式識(shí)別的內(nèi)涵、演化、研究現(xiàn)狀以及未來值得研究的方向。

中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

劉成林教授現(xiàn)任中國(guó)科學(xué)院自動(dòng)化研究所副所長(zhǎng)，中國(guó)科學(xué)院大學(xué)人工智能學(xué)院副院長(zhǎng)。研究方向?yàn)槟Ｊ阶R(shí)別、機(jī)器學(xué)習(xí)和文檔圖像分析。主要研究成果包括：在手寫字符識(shí)別、分類器設(shè)計(jì)與學(xué)習(xí)、字符串識(shí)別、文檔版面分析等方面提出一系列有效的方法；研制的文字識(shí)別算法在郵政分揀機(jī)、表格處理、文檔數(shù)字化、網(wǎng)絡(luò)信息檢索等領(lǐng)域獲得廣泛應(yīng)用。在國(guó)際期刊和國(guó)際會(huì)議上發(fā)表論文300余篇，合著文字識(shí)別方面的英文專著一本。2005年獲得國(guó)際文檔分析與識(shí)別會(huì)議IAPR/ICDAR Young Investigator Award（青年學(xué)者獎(jiǎng)），2008年獲得國(guó)家杰出青年科學(xué)基金。中國(guó)自動(dòng)化學(xué)會(huì)和人工智能學(xué)會(huì)會(huì)士，IAPR Fellow, IEEE Fellow.

本次演講首先對(duì)模式識(shí)別領(lǐng)域做了一個(gè)基本的介紹，然后分析了模式識(shí)別的研究現(xiàn)狀，介紹了一些模式結(jié)構(gòu)理解方面的新進(jìn)展，最后從結(jié)合認(rèn)知的角度講了將來有哪些值得研究的問題和方向。

以下是演講全文，AI科技評(píng)論進(jìn)行了不改變?cè)獾恼怼?/span>

什么是模式識(shí)別？

1. 模式識(shí)別的內(nèi)涵

模式識(shí)別或機(jī)器感知，是人工智能領(lǐng)域的幾個(gè)主要分支方向之一。人工智能是模擬人的智能，那么模式識(shí)別就是模擬人的感知功能。感知功能是人或機(jī)器最重要的智能之一，因?yàn)槿嘶驒C(jī)器要從環(huán)境中獲得信息，首先要通過感知，比如通過視覺識(shí)別場(chǎng)景、人物和文字，通過聽覺跟人交流。心理學(xué)或者認(rèn)知科學(xué)對(duì)感知或模式識(shí)別的定義是：把獲得的刺激，也就是感知信號(hào)與腦子里所存儲(chǔ)的信息進(jìn)行匹配，從而判斷所感知到的是什么內(nèi)容。從計(jì)算機(jī)實(shí)現(xiàn)模式識(shí)別的角度，也有一些定義，大概可以分成兩類：

一類是狹義的，就是根據(jù)某種客觀標(biāo)準(zhǔn)對(duì)目標(biāo)進(jìn)行分類和標(biāo)記，這里主要是指分類。
另一類是廣義的，就是對(duì)數(shù)據(jù)中的目標(biāo)、現(xiàn)象或事件進(jìn)行分類或者描述。這個(gè)描述就是一個(gè)比較復(fù)雜的感知過程，因?yàn)槊枋鰧?shí)際上要對(duì)模式的結(jié)構(gòu)進(jìn)行理解。

綜合起來，模式識(shí)別的定義就是，研究如何使機(jī)器模擬人的感知功能，從環(huán)境感知數(shù)據(jù)中檢測(cè)、識(shí)別和理解目標(biāo)、行為、事件等模式。

模式識(shí)別的基本流程是用傳感器（比如攝像頭）獲取感知數(shù)據(jù)（如圖像）后，對(duì)圖像中的物體進(jìn)行檢測(cè)和定位，然后用一個(gè)模式分類器判斷物體屬于哪類，這是一個(gè)傳統(tǒng)的模式識(shí)別流程。

如果要擴(kuò)展到描述，就要對(duì)物體內(nèi)部結(jié)構(gòu)和圖像中多個(gè)物體之間的關(guān)系進(jìn)行分析，最后用自然語言句子描述出來。比如下圖這個(gè)圖像，它最后給出的結(jié)果可能是：“穿火箭隊(duì)11號(hào)球衣的姚明與教練站在一起”，如果不知道這個(gè)人是誰，結(jié)果可能是“兩個(gè)身高相差很大的人站在一起”，這就是一個(gè)比較復(fù)雜的模式理解過程。

中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

模式識(shí)別和感知幾乎是同義詞，只是意思側(cè)重不同，“感知”側(cè)重應(yīng)用，“模式識(shí)別”側(cè)重技術(shù)和方法。現(xiàn)在說感知和認(rèn)知也比較多，所以我們有必要把相關(guān)概念澄清一下。

模式識(shí)別和感知的內(nèi)容都比較寬泛，它的處理對(duì)象是傳感數(shù)據(jù)（圖像、視頻、音頻等），從中判斷模式（紋理、物體、行為、事件）的存在、類別和具體描述（如部件及部件之間的關(guān)系）。

比較初級(jí)的感知，如檢測(cè)或者分類或者對(duì)紋理進(jìn)行判斷，需要比較少的知識(shí)，我們把它稱為初級(jí)感知。比較高級(jí)的感知就是要對(duì)這個(gè)模式有比較深入的理解，而且可能需要用到一些先驗(yàn)知識(shí)。

認(rèn)知一般是指基于知識(shí)進(jìn)行邏輯推理，其范疇包括知識(shí)的獲取、推理、語義理解等，很多時(shí)候認(rèn)知與感知混在一起，比如我們與人交流時(shí)，眼睛同時(shí)在看，耳朵同時(shí)在聽，并且腦子同時(shí)在思考。即使不看不聽，閉眼思考時(shí)，也不是一個(gè)純粹的邏輯推理過程，因?yàn)槟X子在思考時(shí)也會(huì)浮現(xiàn)一些圖像，所以感知與認(rèn)知有很多交叉。這個(gè)交叉的部分可以看作是高級(jí)感知，因?yàn)樗玫揭恍┲R(shí)對(duì)模式進(jìn)行深入的理解。更進(jìn)一步，如果到高級(jí)認(rèn)知，則是一些跨模態(tài)或者跨任務(wù)的比較復(fù)雜的推理過程，或者基于語義的應(yīng)用（如回答問題、人機(jī)交互、自動(dòng)駕駛決策等）。

2. 模式識(shí)別的方法演化

模式識(shí)別領(lǐng)域與人工智能領(lǐng)域的發(fā)展幾乎初步，從上世紀(jì)50年代以來提出了很多方法。我們看到，1957年最早發(fā)表關(guān)于模式識(shí)別的論文。50年代到60年代，主要是基于統(tǒng)計(jì)決策的方法，也就是統(tǒng)計(jì)模式識(shí)別。60年代末開始提出句法模式識(shí)別，70年代到80年代，句法模式識(shí)別或者結(jié)構(gòu)模式識(shí)別都是研究重點(diǎn)，當(dāng)然統(tǒng)計(jì)模式識(shí)別也在不斷向前發(fā)展。80年代中期，多層神經(jīng)網(wǎng)絡(luò)引起了廣泛關(guān)注，90年代則開始出現(xiàn)多種學(xué)習(xí)方法。

機(jī)器學(xué)習(xí)在60年代就提出了，最早的機(jī)器學(xué)習(xí)主要指模式分類器的參數(shù)估計(jì)（如N.J. Nilsson的Learning Machines一書），但現(xiàn)在內(nèi)容更寬泛了。90年代有大量的機(jī)器學(xué)習(xí)方法提出來，也是圍繞模式識(shí)別問題，主要用于模式分類器設(shè)計(jì)或者分類器的參數(shù)估計(jì)，包括90年代比較有代表性的支持向量機(jī)。2000年后還有更多的學(xué)習(xí)方法，包括多分類器（集成學(xué)習(xí)）、多任務(wù)學(xué)習(xí)、概率圖模型、遷移學(xué)習(xí)等。現(xiàn)在主要是深度學(xué)習(xí)方法，可以說是最主流也幾乎是統(tǒng)治的方法。

模式識(shí)別的方法按模式表示方式可以分為統(tǒng)計(jì)方法和結(jié)構(gòu)方法兩大類。統(tǒng)計(jì)方法基于特征矢量表示，廣義地說，神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)也屬于統(tǒng)計(jì)方法。結(jié)構(gòu)方法要對(duì)模式進(jìn)行結(jié)構(gòu)描述，過去幾十年一直都在研究，但目前還不太實(shí)用。統(tǒng)計(jì)和結(jié)構(gòu)混合的方法從80年代開始提得比較多，這種方法是在結(jié)構(gòu)模型中融入統(tǒng)計(jì)屬性，如屬性圖和概率圖模型，現(xiàn)在神經(jīng)網(wǎng)絡(luò)與圖模型或者圖神經(jīng)網(wǎng)絡(luò)結(jié)合得越來越多。

模式分類器從功能的角度上來說，又分為生成模型和判別模型。判別模型目標(biāo)就是為了把不同類別的模式分開，主要關(guān)心區(qū)分性。生成模型則有點(diǎn)像我們腦子里的模板匹配或者特征匹配，比如我看見一個(gè)人，是把這個(gè)人跟記憶中認(rèn)識(shí)的人的圖像或特征進(jìn)行匹配從而識(shí)別出來。存在腦子里的這些圖像或特征，就像一個(gè)生成模型。生成模型除了能用于分類，同時(shí)因?yàn)樗磉_(dá)了每一類的特點(diǎn)或概率分布，所以又能用來生成數(shù)據(jù)。

從模型學(xué)習(xí)的角度來說，有關(guān)學(xué)習(xí)方法又分為生成學(xué)習(xí)或者判別學(xué)習(xí)，判別學(xué)習(xí)是為了提高模型的分類能力，比如神經(jīng)網(wǎng)絡(luò)主要是判別學(xué)習(xí)，而生成學(xué)習(xí)是為了得到一類數(shù)據(jù)的表示模型。

模式識(shí)別研究現(xiàn)狀

1. 當(dāng)前主流方法

深度學(xué)習(xí)（深度神經(jīng)網(wǎng)絡(luò)）現(xiàn)在是模式識(shí)別領(lǐng)域統(tǒng)治性的方法。深度學(xué)習(xí)最早提出是在2006年Hinton發(fā)表的一篇文章。這篇文章提出多層神經(jīng)網(wǎng)絡(luò)的逐層訓(xùn)練方法，克服層數(shù)較多時(shí)難以收斂的問題。80年代多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的誤差反向傳播算法（BP算法）之后，對(duì)超過五層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以收斂而且泛化性不好。逐層訓(xùn)練方法在這方面有了很大的改進(jìn)。早期深度學(xué)習(xí)主要在語音識(shí)別中取得成功，像循環(huán)神經(jīng)網(wǎng)絡(luò) LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）也是在2006年提出的，在語音識(shí)別和手寫文字識(shí)別中產(chǎn)生了很大影響。

中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

深度學(xué)習(xí)真正在人工智能領(lǐng)域產(chǎn)生廣泛影響是在 2012 年以后。這一年，深度卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖像分類中大幅超過了以往傳統(tǒng)方法的性能，從而引起模式識(shí)別和計(jì)算機(jī)視覺領(lǐng)域研究者的廣泛關(guān)注和跟蹤。

最近這十幾年神經(jīng)網(wǎng)絡(luò)方向提出了大量不同的模型結(jié)構(gòu)和學(xué)習(xí)算法，包括各種卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)，還有現(xiàn)在的 Transformer 等。

從模式分類角度說，大部分神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)映射函數(shù)，實(shí)現(xiàn)從輸入到輸出的一個(gè)映射。如果用于模式分類，輸入一個(gè)圖像，則把它直接映射到一個(gè)類別，或者映射到特征空間里面某個(gè)區(qū)域，實(shí)現(xiàn)分類。

基于這種函數(shù)映射的方式，只要有大量的標(biāo)記數(shù)據(jù)訓(xùn)練（估計(jì)函數(shù)的參數(shù)），就可以達(dá)到很高的分類性能，甚至超過我們?nèi)祟惖淖R(shí)別能力。

最近十幾年，深度學(xué)習(xí)之所以能夠取得巨大成功，主要在于計(jì)算能力的提升，可以用大量數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在 2012 年大規(guī)模圖像分類競(jìng)賽（ImageNet）中，用了100多萬圖像樣本訓(xùn)練深度卷積網(wǎng)絡(luò)，與之前傳統(tǒng)模式識(shí)別方法（基于人工特征提取）相比，分類正確率提高了 10 %以上。這是一個(gè)巨大的飛躍，因?yàn)檫^去傳統(tǒng)方法要提高 1 %都是很困難的。

現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)能夠從圖像里自動(dòng)提取特征，把特征提取和分類器進(jìn)行聯(lián)合學(xué)習(xí)或端到端的學(xué)習(xí)，能夠提取到表達(dá)和判別能力更強(qiáng)的特征。深度學(xué)習(xí)在模式識(shí)別的其他任務(wù)上也有很大的進(jìn)展。

比如，物體檢測(cè)過去認(rèn)為是一個(gè)很難的問題， 90年代末開始人臉識(shí)別技術(shù)實(shí)用化，就要從圖像中檢測(cè)定位人臉，早期檢測(cè)方法基于滑動(dòng)窗分類，精度和速度都必較低。現(xiàn)在提出的很多基于深度神經(jīng)網(wǎng)絡(luò)的兩階段分類或者一階段分類的方法，實(shí)質(zhì)上也是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)兩類分類器，在圖像不同區(qū)域判斷它是前景還是背景區(qū)域。現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)借助大算力和大數(shù)據(jù)訓(xùn)練，物體檢測(cè)的精度和速度都有很大提升。

圖像分割問題過去也是很難的，這是一個(gè)像素分類問題，就是把每個(gè)像素分類到不同的物體或背景區(qū)域。根據(jù)不同的需求，現(xiàn)在提出了所謂的語義分割、實(shí)例分割、全景分割等多種有效的方法，都取得了很大進(jìn)展。

上面說的檢測(cè)、分割和目標(biāo)識(shí)別都是分類問題，現(xiàn)在一些更復(fù)雜的模式識(shí)別問題，例如圖像描述也可以用深度神經(jīng)網(wǎng)絡(luò)的端到端的方法實(shí)現(xiàn)。

圖像描述，就是給定一幅圖，用自然語言句子描述這個(gè)圖像的內(nèi)容。端到端的方法，就是底層用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)去提取特征，然后上面加一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)，即 LSTM 神經(jīng)網(wǎng)絡(luò)去生成語言。這兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練，用大量圖像和語言配對(duì)的數(shù)據(jù)去訓(xùn)練神經(jīng)網(wǎng)絡(luò)，就可以達(dá)到比較好的語言描述性能。最近也有一些可解釋性更好的深度神經(jīng)網(wǎng)絡(luò)方法，把自底向上的物體檢測(cè)與自頂向下的語言生成模型結(jié)合，先檢測(cè)到很多候選物體區(qū)域，然后對(duì)它們進(jìn)行關(guān)系分析的基礎(chǔ)上生成句子。

圖像分類、檢測(cè)、分割以及圖像描述等過去都被認(rèn)為很難的問題，最近不到十年時(shí)間，性能都提升得很快，而且很多技術(shù)在我們?nèi)粘Ｉ钪幸呀?jīng)被廣泛應(yīng)用，比如智能手機(jī)上用到的很多模式識(shí)別技術(shù)，包括人臉識(shí)別、文字識(shí)別、語音識(shí)別等，網(wǎng)絡(luò)圖像檢索也做得非常好。

這種數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)，大部分是端到端的模型，是不是就能解決所有的問題？其實(shí)這種方法還有很多不足，還是有很多問題需要解決。一個(gè)問題就是深度神經(jīng)網(wǎng)絡(luò)需要標(biāo)記大量數(shù)據(jù)用于訓(xùn)練，而標(biāo)記數(shù)據(jù)的代價(jià)非常大。此外，神經(jīng)網(wǎng)絡(luò)這種端到端的學(xué)習(xí)方式，可解釋性比較差。人并不是這樣學(xué)習(xí)的，也不需要很多數(shù)據(jù)，而且人識(shí)別模式的可解釋性比較強(qiáng)。比如，我們識(shí)別一個(gè)人不僅能識(shí)別出是誰，還能解釋為什么這個(gè)人是張三還是李四，這個(gè)人的眼睛、鼻子、臉，以及行為、身體有什么特點(diǎn)等都能給出一個(gè)詳細(xì)解釋，而現(xiàn)在的神經(jīng)網(wǎng)絡(luò)很難做到。

神經(jīng)網(wǎng)絡(luò)的解釋能力差也會(huì)引起識(shí)別的魯棒性差，也就是穩(wěn)定性比較差，識(shí)別結(jié)果容易受干擾。

現(xiàn)在看一些例子。在很多實(shí)際應(yīng)用中對(duì)識(shí)別的可靠性要求非常高，有些場(chǎng)合要求識(shí)別結(jié)果不能出錯(cuò)，可以有部分拒識(shí)（不認(rèn)識(shí)）。如手寫文字識(shí)別，現(xiàn)在基于深度學(xué)習(xí)得到了很高的識(shí)別精度，但還是會(huì)有少量錯(cuò)誤。對(duì)金額票據(jù)識(shí)別這樣的應(yīng)用是不允許出錯(cuò)的，如果能拒識(shí)一部分消除錯(cuò)誤，拒識(shí)的部分可以交給人工處理。而深度神經(jīng)網(wǎng)絡(luò)的拒識(shí)能力比人類要差很多，因?yàn)樗鼈兓诮y(tǒng)計(jì)分類，沒有結(jié)構(gòu)解釋能力，容易把似是而非的模式分錯(cuò)。

深度神經(jīng)網(wǎng)絡(luò)經(jīng)過大數(shù)據(jù)訓(xùn)練后，雖然識(shí)別正確率可能比人還高，但對(duì)于少部分容易錯(cuò)的地方除了不能夠拒識(shí)，還會(huì)產(chǎn)生一些莫名其妙的錯(cuò)誤。如下圖所示，在對(duì)抗學(xué)習(xí)的場(chǎng)合，這個(gè)熊貓圖像加上少量噪聲，得到右邊的圖像在人看上去幾乎沒有變化，但是神經(jīng)網(wǎng)絡(luò)得到的識(shí)別結(jié)果就完全變了。

像后面這個(gè)圖像，神經(jīng)網(wǎng)絡(luò)描述為“一個(gè)小孩拿著棒球棒”，明顯是錯(cuò)的，而且邏輯上也不通，這么小的孩子不可能拿一根棒球棒；右上角這個(gè)交通標(biāo)志圖上只是加了幾個(gè)黑點(diǎn)，就把它判斷成一個(gè)限速標(biāo)志。還有下面這些圖像描述結(jié)果也是不對(duì)的，倒數(shù)第二個(gè)是一個(gè)標(biāo)志牌，上面貼了一些貼紙，就被認(rèn)為是一臺(tái)冰箱。因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)沒有可解釋性，所以它的魯棒性也很差。

中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

到現(xiàn)在為止，模式識(shí)別領(lǐng)域統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)占主導(dǎo)地位，對(duì)大部分分類問題都做得非常好，甚至把圖像描述問題也當(dāng)成分類問題來做。這種方式?jīng)]有結(jié)構(gòu)解釋能力。

結(jié)構(gòu)模式識(shí)別從上世紀(jì)六七十年代提出來了，其目的是試圖統(tǒng)一分類和理解，跟人的識(shí)別方式相似，具有可解釋性和小樣本泛化優(yōu)勢(shì)。計(jì)算機(jī)視覺領(lǐng)域早期提出的所謂基于模型的物體識(shí)別或者基于合成的分析，都是結(jié)構(gòu)方法。雖說結(jié)構(gòu)方法過去幾十年一直都在研究，但并沒有被廣泛接受，因?yàn)殚_源平臺(tái)比較少，實(shí)現(xiàn)起來很困難，學(xué)習(xí)過程復(fù)雜，識(shí)別性能也不夠。但是，如果我們現(xiàn)在都只用神經(jīng)網(wǎng)絡(luò)這種端到端的映射方式，它未來提高的空間就非常小；而要通向模式理解和認(rèn)知，必須要走結(jié)構(gòu)模式識(shí)別這條路。

2. 結(jié)構(gòu)模式識(shí)別早期進(jìn)展

上世紀(jì)七八十年代流行的句法模式識(shí)別，是希望用一個(gè)語法或者樹結(jié)構(gòu)或圖結(jié)構(gòu)表示模式，通過語法解析或結(jié)構(gòu)模式匹配進(jìn)行識(shí)別。這些工作過去很長(zhǎng)時(shí)間都沒有達(dá)到實(shí)用化，但是這些思想對(duì)我們現(xiàn)在的研究是很有啟發(fā)的。基于筆劃匹配的手寫漢字識(shí)別在八九十年代以來也有很多研究，包括我自己做的一個(gè)工作：因?yàn)楣P劃提取很困難，我們提出一個(gè)基于筆劃段動(dòng)態(tài)合并和匹配的方法。

基于圖的方法，到現(xiàn)在為止還是一種主流方法。早在1973年，美國(guó)的兩名科學(xué)家就在 IEEE Transaction on Computers上發(fā)表文章，提出Pictorial Structure（圖形結(jié)構(gòu)），就是一個(gè)物體由多個(gè)部件構(gòu)成，不同部件之間的關(guān)系用一個(gè)彈簧表示，這與我們今天的圖結(jié)構(gòu)很相似。

到了2005年，芝加哥大學(xué)的Felzenszwalb等人用概率圖模型實(shí)現(xiàn)這種圖結(jié)構(gòu)方法，用于人體姿態(tài)估計(jì)和人臉檢測(cè)。后來又發(fā)展出判別性的基于部件的模型，這個(gè)部件模型表示了一個(gè)物體的多個(gè)部件，每個(gè)部件的形狀、位置和物體整體形狀都用一個(gè)概率模型表示。如果一個(gè)物體有不同視角，它的表觀可能會(huì)有很大變化，這就用一個(gè)混合模型表示出來，用于物體檢測(cè)，取得了非常好的效果。

另一個(gè)影響比較大的圖方法叫做Constellation Model（星座模型），是加州理工學(xué)院提出的。這個(gè)模型有一個(gè)中心表示整體形狀，每個(gè)部件的位置、尺度和形狀以一個(gè)聯(lián)合的概念密度模型表示出來，可以用于物體的檢測(cè)和識(shí)別。因?yàn)樗且粋€(gè)生成模型，可以實(shí)現(xiàn)小樣本泛化，每個(gè)類別在樣本數(shù)比較少的情況下，也可以得到比較好的性能。

十幾年前還有一個(gè)叫做Image Parsing 的工作，就是把圖像中不同的前景區(qū)域和背景區(qū)域，統(tǒng)一用一個(gè)圖來描述。在分析時(shí)先采用檢測(cè)器檢測(cè)物體和文本區(qū)域，產(chǎn)生一些自底向上的假設(shè)，然后自頂向下的生成模型來分析它們的關(guān)系。這個(gè)工作還沒有用到深度學(xué)習(xí)，所以它的分析精度是有限的。

現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)學(xué)習(xí)的能力很強(qiáng)，但是可解釋性不夠，我們希望對(duì)于圖像場(chǎng)景分析這樣的問題，能夠做到可解釋同時(shí)精度又比較高，可以把傳統(tǒng)的結(jié)構(gòu)模型與深度神經(jīng)網(wǎng)絡(luò)結(jié)合，比如用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，做物體或部件檢測(cè)，然后上層用一個(gè)結(jié)構(gòu)模型來表示這些物體或部件之間的關(guān)系。

3. 一些最新進(jìn)展

現(xiàn)在，圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和推理能力很強(qiáng)，使用非常靈活，但是需要給定圖結(jié)構(gòu)。很多結(jié)構(gòu)模型的學(xué)習(xí)需要細(xì)粒度標(biāo)注的訓(xùn)練數(shù)據(jù)，有些也可以實(shí)現(xiàn)弱監(jiān)督學(xué)習(xí)。還有一個(gè)值得注意的方向，就是有一些結(jié)構(gòu)可解釋的神經(jīng)網(wǎng)絡(luò)，采用模塊化的結(jié)構(gòu)，可自動(dòng)學(xué)習(xí)可分解的部件。這里我介紹一些最近有代表性的關(guān)于結(jié)構(gòu)理解的工作，包括可解釋性神經(jīng)網(wǎng)絡(luò)、深度圖匹配、公式識(shí)別、圖像場(chǎng)景理解等，這些方向每個(gè)都形成了一系列的工作。

可解釋性神經(jīng)網(wǎng)絡(luò)的代表是Hinton等人提出的膠囊網(wǎng)絡(luò)，網(wǎng)絡(luò)中的每個(gè)膠囊是一個(gè)模塊，可以檢測(cè)物體和部件；而且不同膠囊之間相互獨(dú)立，可以識(shí)別圖像中重疊的部件或者重疊的物體。

另一個(gè)是最近提出來的組合性神經(jīng)網(wǎng)絡(luò)（Compositional Network）, 它是一個(gè)類似于兩層的“與或”圖表示，可以把一個(gè)物體的不同部件檢測(cè)出來，而且在部分部件被遮擋的情況下也能檢測(cè)到。這個(gè)模型可以從弱標(biāo)注的數(shù)據(jù)學(xué)習(xí)，只要標(biāo)注物體的位置，不需要標(biāo)注部件。在有遮擋的情況下，它的性能明顯優(yōu)于常規(guī)的物體檢測(cè)網(wǎng)絡(luò)。

圖匹配過去幾十年一直都有研究，其中有兩個(gè)關(guān)鍵難題，一個(gè)是組合優(yōu)化，也就是如何克服指數(shù)復(fù)雜度的問題。另一個(gè)就是它的距離度量，過去是靠人工設(shè)計(jì)，現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)可以把距離度量自動(dòng)學(xué)習(xí)出來，但是需要大量有節(jié)點(diǎn)對(duì)應(yīng)標(biāo)記的圖數(shù)據(jù)來訓(xùn)練，當(dāng)然有時(shí)可以用合成數(shù)據(jù)來代替。

結(jié)構(gòu)分析方法如果用于零樣本識(shí)別（把從已知類別樣本學(xué)習(xí)到的模型用于識(shí)別沒有訓(xùn)練樣本的新類別）可以產(chǎn)生更好的泛化性能。這是我們實(shí)驗(yàn)室做的基于圖的零樣本視頻分類的工作。因?yàn)橐曨l里涉及到很多物體和原子行為，我們用圖網(wǎng)絡(luò)表示不同物體之間的關(guān)系、不同類別之間的關(guān)系和物體與行為之間的關(guān)系，那么這種結(jié)構(gòu)關(guān)系可泛化到新類別上。

數(shù)學(xué)公式識(shí)別也是很復(fù)雜的結(jié)構(gòu)模式識(shí)別問題，現(xiàn)在手寫公式識(shí)別最好的方法的整體識(shí)別正確率只能達(dá)到百分之五六十。因?yàn)橐粋€(gè)公式有很長(zhǎng)的一串符號(hào)，要全部識(shí)別正確非常困難。所以采用可解釋性的結(jié)構(gòu)識(shí)別模型，能同時(shí)識(shí)別和定位公式中的符號(hào)。

過去傳統(tǒng)的方法就是基于自底向上的字符分割，然后再去做識(shí)別，但是總體識(shí)別精度必較低。前幾年主流的方法是用一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，它的解碼器從輸入圖像直接解碼出公式的字符串，但沒有字符定位。這種沒有字符定位的公式識(shí)別方法，除非識(shí)別率達(dá)到100%，否則是不適用的，因?yàn)殡y以對(duì)錯(cuò)誤的部分進(jìn)行定位和編輯。

中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

我們現(xiàn)在做的一個(gè)方法，就是用圖到圖的映射，這里每個(gè)輸入的筆劃表示一個(gè)節(jié)點(diǎn)，從而整個(gè)公式構(gòu)成一個(gè)輸入圖。我希望輸出的圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)符號(hào)，邊界表示符號(hào)之間關(guān)系，這就得到一個(gè)可解釋性的結(jié)果。這種方法經(jīng)過訓(xùn)練后可以達(dá)到最高的識(shí)別精度，而且可解釋性非常好。這個(gè)模型的訓(xùn)練還需要把公式里符號(hào)的位置標(biāo)出來，我們目前正在研究它的弱監(jiān)督學(xué)習(xí)方法。

圖像場(chǎng)景理解也有一些新進(jìn)展。這個(gè)斯坦福大學(xué)李飛飛研究組的工作從圖像與文本之間配準(zhǔn)的角度訓(xùn)練一個(gè)語言生成模型用于圖像描述。場(chǎng)景圖的生成，就是把圖像里的不同物體和背景區(qū)域用一個(gè)圖表示出來，每個(gè)節(jié)點(diǎn)表示一個(gè)物體或者一個(gè)背景區(qū)域，邊表示它們的關(guān)系，其結(jié)構(gòu)一目了然。圖像處理的底層用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)提取特征，檢測(cè)候選物體上傳到圖神經(jīng)網(wǎng)絡(luò)進(jìn)行分析。

我們把類似的方法用到交通標(biāo)志圖解析。標(biāo)志圖上有很多符號(hào)和文字，在駕駛時(shí)要找到“我要往哪去”這樣的信息，就要理解每個(gè)符號(hào)的意思及符號(hào)之間的關(guān)系。圖像文本匹配現(xiàn)在也是一個(gè)比較復(fù)雜的問題，因?yàn)閳D像里的物體順序與文本里的詞順序不一致，所以要學(xué)這個(gè)配準(zhǔn)關(guān)系。我實(shí)驗(yàn)室同事提出的這是一個(gè)自底向上和自頂向下相結(jié)合的方法。

視覺問答現(xiàn)在是一個(gè)比較被關(guān)注的問題，就是讓機(jī)器看一幅圖，對(duì)給出的語言提問從圖中找到答案，有些答案可以直接從圖中找到，有些則可能要利用一些背景知識(shí)或常識(shí)。

早幾年有些方法也是端到端的方法，比如這個(gè)模型有兩個(gè)階段，首先用一個(gè)神經(jīng)網(wǎng)絡(luò)分析問題的句子，生成一個(gè)解題策略（叫做layout policy），然后這個(gè)策略動(dòng)態(tài)生成一些模塊網(wǎng)絡(luò)，動(dòng)態(tài)地到圖像里去找答案。最近中山大學(xué)研究組發(fā)表一個(gè)可解釋性視覺問答方法，把問題句子表示成語義依存樹，遍歷樹的節(jié)點(diǎn)從圖像中動(dòng)態(tài)尋找答案。

總之，現(xiàn)在基于深度學(xué)習(xí)的方法，推動(dòng)模式識(shí)別和計(jì)算機(jī)視覺前進(jìn)了一大步。那么當(dāng)基于大數(shù)據(jù)訓(xùn)練使得模式分類性能提高之后，剩下的問題就回到了模式識(shí)別最初想做的模式描述，即模式的結(jié)構(gòu)理解。只有實(shí)現(xiàn)了模式結(jié)構(gòu)理解才可能做到可靠和魯棒，而且結(jié)構(gòu)理解的方法對(duì)于小樣本學(xué)習(xí)、開放環(huán)境適應(yīng)、可解釋性等都會(huì)有很大幫助。

未來值得研究的方向

從最近的一些研究進(jìn)展可以看出，為了解決復(fù)雜的模式識(shí)別問題，統(tǒng)計(jì)與結(jié)構(gòu)模型的混合、神經(jīng)網(wǎng)絡(luò)+結(jié)構(gòu)模型、可解釋性神經(jīng)網(wǎng)絡(luò)、視覺+語言等研究越來越受到關(guān)注。從中也可以看出，早期很多基于句法模式識(shí)別和結(jié)構(gòu)模式識(shí)別的方法，對(duì)我們現(xiàn)在和未來的工作都值得借鑒，或者值得重新發(fā)掘。

未來值得研究的方向包括：

（1）結(jié)構(gòu)表示模型。目前主流的結(jié)構(gòu)是神經(jīng)網(wǎng)絡(luò)+結(jié)構(gòu)（如Graph或圖神經(jīng)網(wǎng)絡(luò)），可以擴(kuò)展到更多結(jié)構(gòu)形式，如樹、貝葉斯網(wǎng)等。跨模態(tài)學(xué)習(xí)（如視覺+語言）中往往需要用到結(jié)構(gòu)表示，并且可結(jié)合符號(hào)知識(shí)。
（2）結(jié)構(gòu)模型學(xué)習(xí)，包括圖匹配度量學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、開放環(huán)境增量學(xué)習(xí)、小樣本學(xué)習(xí)、領(lǐng)域自適應(yīng)、跨模態(tài)學(xué)習(xí)等。目前流行的自監(jiān)督學(xué)習(xí)可以為結(jié)構(gòu)學(xué)習(xí)提供預(yù)訓(xùn)練特征表示模型，從而大為簡(jiǎn)化結(jié)構(gòu)模型的學(xué)習(xí)。
（3）語義理解應(yīng)用。模式結(jié)構(gòu)理解或語義理解很多時(shí)候要與應(yīng)用結(jié)合起來，比如智能機(jī)器人或無人駕駛等，它的感知要與認(rèn)知緊密結(jié)合、與決策結(jié)合，因?yàn)橐岩曈X信息結(jié)合背景知識(shí)才能做一個(gè)準(zhǔn)確判斷。

最后呼應(yīng)一下今天講的題目：從初級(jí)感知到高級(jí)認(rèn)知。現(xiàn)在模式分類，也就是一種初級(jí)感知，已經(jīng)做得非常好，但還有很多問題沒有解決，它的魯棒性、可靠性、自適應(yīng)性、小樣本學(xué)習(xí)泛化等方面還需要深入研究。到高級(jí)感知層面，就是要對(duì)模式進(jìn)行結(jié)構(gòu)理解，如物體結(jié)構(gòu)理解、場(chǎng)景理解，相應(yīng)的結(jié)構(gòu)模型表示、學(xué)習(xí)、推理等有一系列研究問題；更高級(jí)的層次是感知和認(rèn)知結(jié)合起來，就是高級(jí)認(rèn)知，包括語義理解、語義推理、語義應(yīng)用與決策等。

中科院自動(dòng)化所副所長(zhǎng)劉成林教授：模式識(shí)別，從初級(jí)感知到高級(jí)認(rèn)知

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章