大牛講堂 | 深度學習Sequence Learning技術分享

本文作者：大牛講堂

2016-08-22 19:35

導語：本文主要介紹了深度學習中Sequence Learning技術的分享，也介紹了其對傳統光學框架的改造。

雷鋒網按：本文作者都大龍，2011年7月畢業于中科院計算技術研究所；曾任百度深度學習研究院（IDL）資深研發工程師，并連續兩次獲得百度最高獎—百萬美金大獎；現在Horizon Robotics負責自主服務機器人、智能家居以及玩具方向的算法研究與開發，涉及深度學習、計算機視覺、人機交互、SLAM、機器人規劃控制等多個領域。

深度學習獨領風騷

人工智能領域深度學習獨領風騷自2006 年Geoffery Hinton等在《科學》( Science) 雜志發表那篇著名的論文開始，深度學習的熱潮從學術界席卷到了工業界。
從那天起，深度學習在工業界的應用就如火如荼，真正開始“深度”影響我們的生活。比如這個大牛同學，參與開發了國內最早的基于CDNN的圖像識別技術，極大提升了計算機視覺相關線上應用的效果，還創新性的主導研發了基于CNN和BLSTM的OCR識別系統，大幅提升了商用OCR系統的識別率，他的工作影響了包括你我在內的千萬互聯網用戶。

深度學習的優勢在哪里

人工智能的特征之一是學習的能力，即系統的性能是否會隨著經驗數據的積累而不斷提升。我們認識到深度學習主要在以下三個方面具有巨大優勢：

1.從統計和計算的角度看，深度學習特別適合處理大數據。在很多問題上，深度學習是目前我們能找到的最好方法。
2.深度學習不是一個黑箱系統。它提供一套豐富的、基于聯接主義的建模語言（建模框架）。利用這套語言系統，我們可以表達數據內在的豐富關系和結構，比如用卷積處理圖像中的二維空間結構，用遞歸神經網絡(Recurrent Neu-ral Network, RNN) 處理自然語言等數據中的時序結構。
3.深度學習幾乎是唯一的端到端機器學習系統。它直接作用于原始數據，自動逐層進行特征學習，整個過程直接優化某個目標函數。

關于Sequence Learning的技術分享現場實錄

關于Sequence Learning的技術分享現場實錄從2012 年的ImageNet競賽開始，深度學習首先在圖像識別領域發揮出巨大威力。隨著研究的深入，深度學習逐漸被應用到音頻、視頻以及自然語言理解領域。這些領域的特點是針對時序數據的建模，我們將其稱之為Sequence Learning。如何利用深度學習來進行端到端的學習，并摒棄基于人工規則的中間步驟，以提升Sequence Learning的效果已經成為當前研究的熱點。

Sequence Learning 已經成功應用到多個領域，比如語音識別、 Image Captain 、機器翻譯、 OCR 等，它們的共同特點是利用 DNN 或者 CNN 提取高級語義特征，利用 RNN 建模時序信息。在損失函數方面，除了常見的 logistic 損失外，還引入了結構化損失，比如 CTC 等序列對序列的損失等。