成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給夏睿
    發送

    0

    谷歌新進展:用DNN模型為YouTube視頻添加環境音效字幕

    本文作者: 夏睿 2017-03-25 15:55
    導語:該技術由Accessibility、Sound Understanding和YouTube三個團隊共同完成。

    谷歌新進展:用DNN模型為YouTube視頻添加環境音效字幕

    我們在感知外部世界的過程中,聲音(audio)起到了極大的作用。在這里,我們把聲音分解為兩類,一類是語音(speech),另一類是環境音(sound)。人們會本能地對環境音做出反應,比如會被突如其來的騷動所驚嚇,或被情景喜劇中的背景笑聲所感染。

    影音網站界的翹楚——YouTube 也深知音頻的重要性。自2009年起,他們就開始讓視頻自動生成字幕。如今,這一功能又有了升級版——雷鋒網了解到,谷歌于昨日(3月23日)宣布,將為YouTube視頻中的自動字幕增加音效信息,使人們擁有更豐富的視聽體驗。

    據雷鋒網了解,這也是YouTube第一個用機器學習為視頻自動添加音效字幕的技術,由Accessibility、Sound Understanding和YouTube團隊共同完成。

    用于探測環境音的DNN模型

    為了探測環境音,研究人員使用深度神經網絡(DNN)模型來解決下面三個問題:

    1.  檢測出用戶想要的聲音;

    2. 對該聲音進行時間定位;

    3. 音頻中可能也有識別出其他并行或獨立的語音,將上述兩步的聲音結果整合其中。

    研究人員在開發DNN模型時,遇到的第一個挑戰是難以獲得大量有標記的環境音信息。而他們的解決方法是,轉向使用弱標記數據來生成足夠多的數據集。不過,問題又來了:

    • 一個視頻中有那么多種環境音,要選擇哪種呢?

    研究人員最后選擇檢測的三種環境音是“鼓掌”、“音樂”和“笑聲”,因為在人們添加的字幕中,這三種被添加的次數最多,并且傳達的語義信息也比較明確。

    除了選定環境音,研究人員也做了許多檢測環境音的工作,包括開發基礎與分析框架,探測聲音事件,以及將其整合進自動字幕中,這些工作可使以后在音頻中整合其它類型的聲音(比如“鈴聲”、 “犬叫聲”)變得更加容易。

    字幕密度檢測

    將視頻傳到YouTube上后,DNN會自動查看音頻,并預測其是否包含人們感興趣的聲音事件(sound event)。由于多個音頻可以同時出現,所以模型需要在每個時間段內對每個音頻進行預測,直到預測完所有音頻(如下圖所示)。最后會得到一個密集流,即表示詞表中的聲音以100幀/s的頻率出現。

    谷歌新進展:用DNN模型為YouTube視頻添加環境音效字幕

    同時,研究人員還使用了含有ON和OFF的改進維特比算法(Viterbi algorithm),讓密集流預測變得更平滑。每個音效的預測斷對應ON。

    但是,這樣的分類系統可能會導致模型無法區分同一時段內發生的不同事件。這就需要模型在信息誤報(false positives )和信息丟失這兩點中尋找平衡。具體做法是:

    根據 ON 上的時間做進一步限制,從而將系統性能推至精確度召回曲線上的一個預期點。

    用戶體驗反饋

    研究人員還與用戶體驗研究團隊展開合作,分析了在不同條件下,用戶體驗有何差異。條件設定如:

    • 分開顯示語音字幕和音效字幕;

    • 兼有語音字幕和音效字幕時,讓它們交叉呈現;

    • 僅在句子結束或語音出現停頓時,顯示音效字幕;

    • 消音看視頻,評價對字幕的感受如何。

    除此之外,研究人員還重點關注了聲音監測系統的錯誤反饋。事實證明,音效信息錯誤會并不會使用戶體驗降低,原因可能是以下兩點:

    1. 能聽到聲音的用戶,忽略了字幕中的錯誤;

    2. 聽不到聲音的用戶,也能從錯誤的字幕信息中得知有聲音事件發生,因而沒有遺漏關鍵的語音信息。

    研究人員最后表示,系統偶爾犯下小打小鬧的錯誤影響不大,只要提供的信息大部分正確,還是會贏得用戶的好評。

    更多谷歌最新研究請繼續關注雷鋒網報道。

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    谷歌新進展:用DNN模型為YouTube視頻添加環境音效字幕

    分享:
    相關文章

    編輯

    求索于科技人文間, 流連在 AI 浪潮下; 我在這兒, 斟酒,燃香,等你故事
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說