平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

本文作者：楊文

2017-12-15 14:05

導語：羅冬日分享總結

雷鋒網(wǎng)AI研習社按：循環(huán)神經(jīng)網(wǎng)絡（RNN）已經(jīng)在眾多自然語言處理中取得了大量的成功以及廣泛的應用。但是，網(wǎng)上目前關于RNNs的基礎介紹很少，本文便是介紹RNNs的基礎知識，原理以及在自然語言處理任務重是如何實現(xiàn)的。文章內容根據(jù)雷鋒網(wǎng)AI研習社線上分享視頻整理而成。

在近期雷鋒網(wǎng)AI研習社的線上分享會上，來自平安科技的人工智能實驗室的算法研究員羅冬日為大家普及了RNN的基礎知識，分享內容包括其基本機構，優(yōu)點和不足，以及如何利用LSTM網(wǎng)絡實現(xiàn)語音識別。

羅冬日，目前就職于平安科技人工智能實驗室，曾就職于百度、大眾點評，擔任算法研究員；中國科學院研究生院碩士，主要研究方向為語音識別，自然語言處理。

分享主題：循環(huán)神經(jīng)網(wǎng)絡（RNN）基礎

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

主要內容：

普通RNN結構
普通RNN的不足
LSTM單元
GRU單元
采用LSTM實現(xiàn)語音識別的例子

RNN和CNN的區(qū)別

普通卷積神經(jīng)網(wǎng)絡（CNN）處理的是“靜態(tài)”數(shù)據(jù)，樣本數(shù)據(jù)之間獨立，沒有關系。

循環(huán)神經(jīng)網(wǎng)絡（RNN）處理的數(shù)據(jù)是“序列化”數(shù)據(jù)。訓練的樣本前后是有關聯(lián)的，即一個序列的當前的輸出與前面的輸出也有關。比如語音識別，一段語音是有時間序列的，說的話前后是有關系的。

總結：在空間或局部上有關聯(lián)圖像數(shù)據(jù)適合卷積神經(jīng)網(wǎng)絡來處理，在時間序列上有關聯(lián)的數(shù)據(jù)適合用循環(huán)時間網(wǎng)絡處理。但目前也會用卷積神經(jīng)網(wǎng)絡處理語音問題，或自然言語理解問題，其實也是把卷積神經(jīng)網(wǎng)絡的計算方法用到這上面。

RNN 的基本結構和結構展開示意圖：

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

普通RNN的不足之處

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

首先是神經(jīng)網(wǎng)絡里面的計算，可以大致分為三類：函數(shù)合成，函數(shù)相加，加權計算。

在計算過程中，經(jīng)常會用到激活函數(shù)，比如Sigmoid激活函數(shù)。殘差在往前傳播的過程中，每經(jīng)過一個Sigmoid函數(shù)，就要乘以一個Sigmoid函數(shù)的導數(shù)值，殘差值至少會因此消減為原來的0.25倍。神經(jīng)網(wǎng)絡每多一層，殘差往前傳遞的時候，就會減少至少3/4。如果層數(shù)太多，殘差傳遞到前面已經(jīng)為0，導致前層網(wǎng)絡中國呢的參數(shù)無法更新，這就是梯度消失。

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

LSTM單元和普通RNN單元的區(qū)別

主要大的區(qū)別是，采用一個叫“細胞狀態(tài)（state）”的通道貫穿了整個時間序列。

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

通過精心設計的稱作“門”的結構來去除或增加信息到細胞狀態(tài)的能力。

"忘記門”

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

“輸入門”的打開關閉也是由當前輸入和上一個時間點的輸出決定的。

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

“輸出門”，控制輸出多少，最終僅僅會輸出確定輸出的那部分。

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

所有的公式匯總：

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

增加peephole的LSTM單元

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

讓幾個“門”的輸入數(shù)據(jù)除了正常的輸入數(shù)據(jù)和上一個時刻的輸出以外，再接受“細胞狀態(tài)”的輸入。

GRU單元

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

它是各種變種之一，將“忘記門”和“輸入們”合成了一個單一的“更新門”，同時還混合了細胞狀態(tài)和隱藏狀態(tài)。

接下來用RNN做一個實驗，給大家介紹一個簡單的語音識別例子：

關于LSTM+CTC背景知識

2015年，百度公開發(fā)布的采用神經(jīng)網(wǎng)絡的LSTM+CTC模型大幅度降低了語音識別的錯誤率。采用這種技術在安靜環(huán)境下的標準普通話的識別率接近97%。

CTC是Connectionist Temporal Classification 的縮寫，詳細的論文介紹見論文“Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks”

CTC的計算實際上是計算損失值的過程，就像其他損失函數(shù)一樣，它的計算結果也是評估網(wǎng)絡的輸出值和真實差多少。

聲音波形示意圖

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

在開始之前，需要對原始聲波進行數(shù)據(jù)處理，輸入數(shù)據(jù)是提取過聲學特征的數(shù)據(jù)，以幀長25ms、幀移10ms的分幀為例，一秒鐘的語音數(shù)據(jù)大概會有100幀左右的數(shù)據(jù)。

采用MFCC提取特征，默認情況下一幀語音數(shù)據(jù)會提取13個特征值，那么一秒鐘大概會提取100*13個特征值。用矩陣表示是一個100行13列的矩陣。

把語音數(shù)據(jù)特征提取完之后，其實就和圖像數(shù)據(jù)差不多了。只不過圖像數(shù)據(jù)把整個矩陣作為一個整體輸入到神經(jīng)網(wǎng)絡里面處理，序列化數(shù)據(jù)是一幀一幀的數(shù)據(jù)放到網(wǎng)絡處理。

如果是訓練英文的一句話，假設輸入給LSTM的是一個100*13的數(shù)據(jù)，發(fā)音因素的種類數(shù)是26(26個字母），則經(jīng)過LSTM處理之后，輸入給CTC的數(shù)據(jù)要求是100*28的形狀的矩陣（28=26+2）。其中100是原始序列的長度，即多少幀的數(shù)據(jù)，28表示這一幀數(shù)據(jù)在28個分類上的各自概率。在這28個分類中，其中26個是發(fā)音因素，剩下的兩個分別代表空白和沒有標簽。

設計的基本網(wǎng)絡機構

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結

原始的wav文件經(jīng)過聲學特征提取變成N*13，N代表這段數(shù)據(jù)有多長，13是每一幀數(shù)據(jù)有多少特征值。N不是固定的。然后把N*13矩陣輸入給LSTM網(wǎng)絡，這里涉及到兩層雙向LSTM網(wǎng)絡，隱藏節(jié)點是40個，經(jīng)過LSTM網(wǎng)絡之后，如果是單向的，輸出會變成40個維度，雙向的就會變成80個維度。再經(jīng)過全連接，對這些特征值分類，再經(jīng)過softmax計算各個分類的概率。后面再接CDC，再接正確的音素序列。

真實的語音識別環(huán)境要復雜很多。實驗中要求的是標準普通話和安靜無噪聲的環(huán)境。

如果對代碼講解（詳細代碼講解請點擊視頻）感興趣的話，可以復制鏈接中的代碼：https://github.com/thewintersun/tensorflowbook/tree/master/Chapter6

運行結果如下：

平安科技羅冬日：如何用RNN實現(xiàn)語音識別？| 分享總結