百度發布 Deep Speech 3，不同應用場景下輕松部署高精度語音識別模型

本文作者：楊曉凡

2017-10-31 18:37

導語：不僅有好的表現，還有很低的上手門檻

雷鋒網 AI 科技評論按：美國時間10月31日，百度研究院發出博文，宣布發布新一代深度語音識別系統 Deep Speech 3。繼2014首秀的第一代Deep Speech和被MIT科技評論評為“2016年十大突破技術之一”的 Deep Speech 2之后，百度再一次展現出自己的研究水平以及技術應用的愿景。雷鋒網 AI 科技評論把百度研究院這篇博文編譯如下。

準確的語音識別系統是許多商業應用中不可或缺的一環，比如虛擬助手接收命令、能理解用戶反饋的視頻評價，或者是用來提升客戶服務質量。不過，目前想要構建一個水平領先的語音識別系統，要么需要從第三方數據提供商購買用戶數據，要么就要從全球排名前幾位的語音和語言技術機構挖人。

百度研究院的研究人員們一直都在努力開發一個語音識別系統，它不僅要有好的表現，而且系統的構建、調試、改進的時候都只需要一支語音識別入門水平、甚至完全不了解語音識別技術的團隊就可以（不過他們還是需要對機器學習有深入的理解）。百度的研究人員們相信，一個高度易用的語音識別流水線可以讓語音識別平民化，就像卷積神經網絡帶來了計算機視覺領域的革命一樣。

在這個持續的努力過程中，百度首先開發出了第一代Deep Speech，這是一個概念驗證性的產品，但它也表明了一個簡單模型的表現就可以和當時頂尖模型的表現相媲美。隨著Deep Speech 2的發布，百度表明了這樣的模型對不同的語言具有良好的泛化性，并開始把它部署在許多實際應用中。

10月31日，百度的硅谷AI實驗室發布了Deep Speech 3，這是下一代的語音識別模型，它進一步簡化了模型，并且可以在使用預訓練過的語言模型時繼續進行端到端訓練。

百度發布 Deep Speech 3，不同應用場景下輕松部署高精度語音識別模型

在論文中，百度研究院的研究員們首先對三個模型進行了實證比較：Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 語音識別系統中使用的基于注意力的Seq2Seq模型，以及端到端語音識別中應用的RNN變換器。這個RNN變換器可以看作一個編碼器-解碼器模型，其中假設輸入和輸出標識之間的對應關系是局部的、單調的。這就讓RNN變換器的損失比基于注意力的Seq2Seq更適合用于語音識別（尤其在互聯網應用中），它去除了帶有注意力的模型中用來鼓勵單調性的額外剪枝。

并且，CTC需要一個外部的語言模型用來輸出有意義的結果，RNN變換器就不需要這樣，它可以支持一個純粹由神經網絡構成的解碼器，模型的訓練和測試階段之間也不會產生錯位。所以自然地，RNN變換器比CTC模型具有更好的表現，都不需要一個外部的語言模型。

百度發布 Deep Speech 3，不同應用場景下輕松部署高精度語音識別模型

Seq2Seq和RNN變換器無需外部語言模型就可以達到良好表現的狀況也提出了一個挑戰。語言模型對語音識別很關鍵，因為語言模型可以用大得多的數據集快速訓練；而且語言模型可以對語音識別模型做特定的優化，讓它更好地識別特定內容（用戶，地理，應用等等），同時無需給每一類的內容都提供有標注的語音語料。百度的研究人員們在部署Deep Speech 2的過程中發現，這后一條特點對用于生產環境的語音識別系統來說尤其重要。

為了支持這些應用場景，百度開發了Cold Fusion，它可以在訓練Seq2Seq模型的時候使用一個預訓練的語言模型。百度在論文中表明，帶有Cold Fusion的Seq2Seq模型可以更好地運用語言信息，帶來了更好的泛化效果和更快的收斂，同時只需用不到10%的標注訓練數據就可以完全遷移到一個新領域。Cold Fusion還可以在測試過程中切換不同的語言模型以便為任何內容優化。Cold Fusion能夠用在Seq2Seq模型上的同時，它在RNN變換器上應當也能發揮出同樣好的效果。

這樣，RNN變換器的損失和利用語言模型的Cold Fusion一起構成出了語音識別的下一個前沿。百度的研究人員們也會繼續探索未來，期待看到這些技術帶來更大的進步。

相關論文：

Exploring Neural Transducers for End-to-End Speech Recognition（ASRU 2017收錄論文）： https://arxiv.org/abs/1707.07413

Cold Fusion: Training Seq2Seq Models Together with Language Models： https://arxiv.org/abs/1708.06426

雷鋒網 AI 科技評論編譯

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章