在視覺方面，計算機可與人類親戚一戰(zhàn)了

本文作者： Travis

2014-12-25 17:35

導語：過去的幾十年時間，神經科學家一直在嘗試設計一個能夠模擬人類大腦來識別物體，具有視覺技能的計算機網絡。因為人類大腦的識別物體的能力非常準確和快速，很長的時間以來，人們都沒有設計出任何一個可以匹敵人類對視覺物體的識別能力的計算機模型。目前這個情況發(fā)生了一些改變。

在過去的幾十年時間，神經科學家一直在嘗試設計一個能夠模擬人類大腦來識別物體，具有視覺技能的計算機網絡。正是因為人類大腦的識別物體的能力非常準確和快速，很長的時間以來，人們都沒有設計出任何一個可以匹敵人類對視覺物體的識別能力的計算機模型。

但是，目前這個情況發(fā)生了一些改變。來自美國MIT的神經科學家們進行了一項最新的研究，他們發(fā)現了一種最新一代號稱“深層神經網絡（deep neural networks）” 的東西，其能夠與靈長類動物大腦相匹敵。

在視覺方面，計算機可與人類親戚一戰(zhàn)了

MIT大腦與認知科學學院院長，神經科學教授James DiCarlo表示，由于這些神經網絡是基于神經科學家目前對大腦是如何進行物體識別的理解，因此最新神經網絡的發(fā)現則表明了神經科學家對物體識別的基本原理有了較為精確的把握。他將這項研究發(fā)表在了12月18日出版的PLoS Computational Biology期刊上。

MIT麥克戈文大腦科學研究所的成員DiCarlo表示，“這一神經網絡模型能夠在神經總體空間里預測出神經反應和物體距離，這表明模型已經集合了我們目前對大腦的最好理解。”

對靈長類動物的大腦是如何工作的進一步了解，將促進人類開發(fā)出更好的人工智能，甚至有朝一日這個技術可以成為修復視覺功能紊亂的新方法。

受大腦啟發(fā)

科學家們最早在上個世紀的70年代就已經開始開發(fā)神經網絡了，他們希望能夠模擬出大腦的能力來處理視覺信息、識別語音以及理解語言。

對于基于視覺的神經網絡，科學家們是受到了大腦視覺信息的層次表示（hierarchical representation）所啟發(fā)。隨著視覺從視網膜輸入，并進入初級視皮層和顳下皮層（IT Cortex），輸入的視覺在每一個皮層上都會經過處理，每處理一次就會變得更明確一些，直到物體最終被識別出來。

為了模擬這個過程，神經網絡的設計師在計算機模型里創(chuàng)造了多個計算層。每一層執(zhí)行一個數學運算，例如：線性標量積。在每一個層面上，視覺物體的表現都變得越來越復雜，而無關緊要的信息則會被拋棄，例如：物體的位置或者移動。

每一個單獨的元素都是一個具有代表性的數學表達式，當你將成百上千萬個這樣的數學表達式相結合后，就能實現將原始信號通過復雜的轉化變成非常適合物體識別的表達方式了。

在這項研究里，科研人員首次測量了大腦對物體識別能力。研究人員在顳下皮層和V4區(qū)植入了電極，這使得他們能夠觀察到動物看到每一個物體時所產生的神經表現。

之后，研究人員將這些神經表現與深層神經網絡產生的神經表現進行對比，后者包含系統(tǒng)里每一個計算元素所產生的數字矩陣。每一張圖片都會產生不同的數字。

通過每一個這樣的計算變換，每一個網絡的層次，特定的物體或者圖片會逐漸接近，而其它物體會越來越遠離。

更強大的處理能力

近期這種類型的神經網絡之所以可以成功，取決于兩個重要因素。

一是計算機處理能力有了實質性的飛躍。研究人員在物體時別上可以利用圖形處理單元（GPU），這是一種可以處理電子游戲中大量視覺內容的高性能芯片。
第二個因素是研究人員現在能夠將大量數據集輸入算法中，從而“訓練”算法使之更加高效。這些數據集包含上百上千萬張圖片，每一張圖片都被人們從不同鑒別層面進行了注解。例如：一張狗的圖片可能會被貼上動物、犬類、是否被馴養(yǎng)或者狗的品種等標簽。

最初，神經網絡并不擅長識別這些圖片，但是隨著它們“看”到的圖像越來越多，并在發(fā)現自己識別出錯后，會逐漸改進它們的算法，直到最后能夠更加精確的識別物體。

via mit

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

Travis

編輯

發(fā)私信

當月熱門文章