Youtube自動字幕系統已能識別環境音，但國內還在依靠字幕組

本文作者：叨叨

2017-03-26 21:04

導語：各大字幕組永遠在招人

在國內，下載好電影后，再去字幕網站搜索外掛字幕，已經是影迷們的固有動作。這種習慣的養成，歸功于近10年來逐漸形成的野生網絡字幕組，用業余時間為影迷們貢獻了大量、快速的免費字幕。

相比國內的野生字幕組，谷歌的技術宅們在2009年為Youtube上線了一個自動字幕系統（Automatic Captioning System），借助人工智能技術，在視頻里實時生成字幕。時隔7年后，YouTube宣布已經有10億多條視頻采用了該系統生成的字幕，而全球日活躍用戶也達1500萬。

Youtube自動字幕系統已能識別環境音，但國內還在依靠字幕組

在Google給定的視頻中，可以在設置中選擇開啟自動字幕，之后視頻下方會隨著視頻中的人聲，逐個顯示對應字幕。另外，在字幕開啟菜單中，也有“自動翻譯”的選項，包括中文繁體、簡體在內的上百種語言均可翻譯。

Youtube自動字幕系統已能識別環境音，但國內還在依靠字幕組

此外，雷鋒網3月23日還報道過，由Accessibility、Sound Understanding和YouTube三個團隊共同完成了，通過深度神經網絡（DNN）模型，在自動字幕增加音效信息的技術，進一步提升了觀眾的“看片”體驗。

其中，Google Accessibility 團隊致力于讓每個人都能夠享用互聯網帶來的便利，尤其是殘障人士，他們主要負責監控 Google 產品的無障礙狀況，協調開展無障礙培訓、測試并提供咨詢服務。Accessibility產品團隊需要接受相關培訓，以在產品的設計和發布過程中體現無障礙原則。此外他們還努力與各類用戶和致力于推廣無障礙功能的團體建立密切的關系，以便征求反饋意見。

Youtube自動字幕系統已能識別環境音，但國內還在依靠字幕組

而Youtube的自動字幕系統，在很大程度上實現了視頻觀看的“無障礙”，尤其是聽不到聲音的聾人，也能通過自動生成的字幕進行高質量的視頻信息獲取。

Google Sound Understanding 團隊，此前曾負責AudioSet 數據集，致力于教學機器,通過建立狀態機器學習模型，生成大規模的音頻事件數據集，并定義聲音之間存在的層次關系，來準確地感知音頻。

Youtube自動字幕系統已能識別環境音，但國內還在依靠字幕組

目前，國內主流視頻網站均未推出過自動字幕系統，不過在坊間流傳著一個能夠自動生成字幕的軟件——Autosub，最初該軟件只幫助字幕組成員自動對軸，后來的更新版本調用了谷歌的API，支持自動生成字幕，不過效果不佳，此后鮮有更新。

雷鋒網還了解到，2011年《電子學報》的一篇論文稱，以《新聞聯播》為語料進行訓練，實現了音頻提取、音頻分類與切分、說話人識別、大詞匯量連續語音識別、視頻文件播放、文本字幕自動生成等功能，從而實現“全自動中文新聞字幕生成”。但此論文中并未提及是否可以做到“實時”。

這項技術的難點在于，一方面一條視頻中的聲音有很多，包括對白和混合在一起非常復雜的環境聲，要辨別哪個聲音是我們想要的，并把幾個同時產生的聲音區分開來相當不易；另一方面視頻實時字幕生成，需要在極短的時間內做出反饋，對于計算速度考驗巨大。

針對分辨聲音而言，搜狗CEO王小川就表示過，目前語音識別已經有了較高的準確度，接近實用，但還有很多的限制。比如需要安靜的環境，當有噪音的時候同時有兩個人說話機器就搞不定了。搜狗的做法是預先錄制，比如在汽車環境里面，預先錄制發動機引擎的聲音，把沒有見過的環境變成機器能夠見過的環境，就能夠做識別。針對計算速度而言，則需要依靠硬件和算法的進步。

現在能實現的程度，需要歸功于過去幾年間，DNN 技術、Residual/Highway 網絡技術和粗粒度建模單元技術的進展。但環境音非常復雜，想要把所有的獨立聲音預先錄下來，是一項巨大的工程。即便是谷歌自動字幕系統的研究人員們，也只是選取了“鼓掌、音樂、笑聲”三種語義清楚的背景聲。

視頻之外，在語音轉文字這項技術上，國內外企業多有涉及。比如微軟幫助聾人通話實時將語音轉換為文字的RogerVoice，比如百度新近推出的SwiftScribe、再如國內企業科大訊飛等，還有各類錄音、速記應用程序，都能夠不同程度的支持語音轉文字的技術。一般來說環境越安靜，識別的準確率越高。

科大訊飛相關人士向雷鋒網表示，視頻字幕需求分為兩類，一類為已錄制視頻的字幕配置，另一類為直播視頻的字幕配置，科大訊飛的識別技術均可實現上述兩類字幕需求。

目前訊飛開放平臺已對外提供第一種已錄制視頻字幕配置需求的"語音轉寫"產品，準確率可達95%，而對于第二種直播視頻的字幕配置產品將在今年年中對外提供。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

叨叨

編輯

雷鋒網北京編輯。關注人工智能，略雜。微信（yougo5654）可以找到我。

掃描關注作者微信

發私信

當月熱門文章