成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給黃善清
    發送

    0

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    本文作者: 黃善清 2018-11-09 17:35 專題:CNCC 2018
    導語:多模態技術有兩大應用方向:一是會改變人機交互的方式,二是將使信息分發更加高效。
    活動
    企業:快手
    操作:主題演講
    事項:

    雷鋒網 AI 科技評論按:在 CNCC2018「高通量媒體內容理解論壇」上,快手科技多媒體內容理解部負責人李巖發表了題為「多模態內容生產與理解」的演講,講述了帶領多媒體內容理解部在多模態研究上取得的一些進展。

    李巖在演講中表示,多模態技術有兩大應用方向,一是會改變人機交互的方式,二是將使信息分發更加高效;視頻本身就是一個多模態的問題,而快手則擁有海量的多模態數據,多模態的研究對于快手來說是非常重要的課題;目前快手已經在語音識別與合成、智能視頻配樂、通過 2D 圖像驅動 3D 建模特效、視頻精準理解等領域對多模態技術進行研發應用。

    以下為演講的主要內容:

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    大家好,首先我來簡單介紹一下快手,在這個平臺,用戶能夠被廣闊的世界看到,也能夠看到廣闊的世界,我們可以看一下快手的數據: 70 億條視頻總量、1500 萬日新增視頻,日均的使用時長超過 60 分鐘等,所以快手平臺上有非常多的多媒體數據,同時也有非常多的用戶交互數據,比如我們每天有 1.3 億用戶觀看超過 150 億次視頻的播放數據。

    我們知道視頻是視覺、聽覺、文本多種模態綜合的信息形式,而用戶的行為也是另外一種模態的數據,所以視頻本身就是一個多模態的問題,再加上用戶行為就更是一種更加復雜的多模態問題。所以多模態的研究對于快手來說,是非常重要的課題。

    多模態技術兩大應用方向:人機交互與信息分發

    我認為多模態技術會有兩大主要的應用。

    第一,多模態技術會改變人機交互的方式,我們與機器交互的方式將會越來越貼近于更令人舒適、更自然的方式。

    第二,多模態技術會使得信息的分發更加高效。

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    多模態技術研究的三個難點:語義鴻溝、異構鴻溝、數據缺失

    其實在目前來看,多模態研究難度還是非常高的。

    其中大家談得比較多的是語義鴻溝,雖然近十年來深度學習和大算力、大數據快速發展,計算機視覺包括語音識別等技術都取得了非常大的進展,但是截至現在,很多問題還沒有得到特別好的解決,所以單模態的語義鴻溝仍然是存在的。

    再者,由于引入了多種模態的信息,所以怎樣對不同模態之間的數據進行綜合建模,會是一個異構鴻溝的問題。

    另外,做語音、做圖像是有很多數據集的,大家可以利用這些數據集進行刷分、交流自己算法的研究成果。但是多模態的數據集是非常難以構建的,所以我們在做多模態研究時是存在數據缺失的問題的。

    下面我會分享我們在多模態這個方面所做的事情,以及這些技術是怎么樣幫助快手平臺獲得更好的用戶體驗和反饋的。

    多模態技術如何實現更好的記錄

    首先,多模態技術將實現更好的記錄。隨著智能手機的出現,每個人都可以用手機上攝像頭去記錄周圍的世界,用麥克風去存儲周圍的音頻信息;而在以前,生成視頻,尤其生成一些比較專業的視頻,都是導演干的事情。但現在,我們通過手機就能夠做到,這里面會有非常多的多模態技術研究來輔助人們更好地記錄。

    我們希望整個記錄過程是更加便捷、個性化、有趣,同時也是普惠的,具體我將分別通過四個案例分享。

    1、語音轉文字打造便捷字幕生成體驗

    一個視頻里,音頻部分對于整個視頻的信息傳遞是非常重要的。網上有很多帶有大量字幕的、以講述為主的視頻,這樣的視頻制作其實是一件很麻煩的事情,因為一個一個去輸入文字是很痛苦的,像過去在廣電系統專業工作室就需要很多用于字幕編輯的工具軟件。而如果我們通過語音識別技術,把語音直接轉成文字,就可以很輕松地通過手機編輯生成一個帶字幕視頻。

    2、語音合成實現個性化配音

    另外一個技術叫做個性化配音,假如在一個視頻中,你不喜歡聽男性配音,而希望聽到由一位女士配音,我們就可以通過語音合成技術滿足個性化的訴求。

    語音識別及合成技術都會使我們記錄的過程變得更加便捷、有趣,但這兩個技術在做視覺或者多媒體的圈子里面關注度不是特別高,只是偶爾會在做語音的圈子里去聊這些問題。包括在語音圈子里面,語音識別和合成現在往往是兩波人在做。

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    隨著深度學習技術的出現,語音識別和合成這兩個問題其實在某種程度上是非常對稱的,因為語音識別是從語音到文字,語音合成是從文字到語音。語音識別的時候,我們提取一些聲學的特征,經過編碼器或者 Attention 的機制,實現從語音到文字的轉化;語音合成的技術和算法,其實也涉及編碼器或者 Attention 的機制,二者形成了比較對稱的網絡。所以我們把語音識別和合成看成是一個模態轉換的特例,從神經網絡建模角度來看,是一個比較一致、容易解決的問題。

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    具體神經網絡在設計的時候,雖然二者內容機制其實還是有一些不同,但更大的趨勢是這里面將來會有更多的趨同,因為我們知道隨著相關算法的發展,計算一定是朝著一個更加簡化,更加統一的方向發展。就像深度學習的出現,其實就是通過計算的方式取代了手工來獲取有效的特征。多模態的轉換領域里面也出現了這樣的特點,這是一件非常有意思的事情。

    3、根據視頻內容自動生成音樂

    音樂也是短視頻非常重要的一部分,有錄視頻經驗的同學可以感受到,為一個場景配合適的音樂是一個很難的事情。過去,有不少用戶為了與音樂節拍一致,努力配合音樂節奏拍攝,極大限制了拍攝的自由度。我們希望用戶可以隨意按照自己想要的節奏錄制,所以讓機器通過用戶拍攝的視頻內容,自動生成符合視頻節奏的音樂,這樣視頻畫面與音樂節奏就會更匹配、更一致。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    音樂生成涉及很多具體的技術,我們也做了非常多的研究,其中一個問題是懂音樂的不懂計算機科學,懂計算機科學的人不懂音樂。想要把短視頻配樂這個問題研究好,需要要有做音樂和做 AI 的人一起集成創新,這方面我們也做了非常多的工作。

    4、2D 圖像驅動 3D 建模實現 Animoji 效果

    通過蘋果的發布會,大家應該都了解 Animoji 這項技術,iphoneX 有一個標志性的功能,就是通過結構光攝像頭實現 Animoji,現在國內手機廠商也越來越多地采用結構光的方式去實現 Animoj。而快手是國內較早實現不使用結構光,只用 RGB 圖像信息就實現 Animoji 效果的企業。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    用戶不必去花上萬元去買 iphoneX,只要用一個千元的安卓手機,就可在快手的產品上體驗 Animoji 的特效,從而能夠在不暴露臉部信息的同時展現細微的表情變化,例如微笑、單只眼睛睜單只眼睛閉等,讓原來一些羞于表演自己才藝的人,也可以非常自如地表達。我們覺得做技術有一個非常快樂的事情,就是讓原來少數人才能用的技術,變得更普惠。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    其實解決這樣一個問題是非常難的,因為即使是像蘋果這樣的公司,也是采用了結構光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術,快手面臨著硬件的約束,只能通過 2D 的 RGB 視覺信息對問題進行建模、求解,這里面包括了像 Landmark 人臉關鍵點檢測、實時重建人臉三維模型等技術,把 2D 和 3D 兩種不同模態的信息做建模、做對齊。

    我們也能看到現在市場上可能有一些小型的 APP 在做類似的事情,但體驗很差,而我們的整體體驗還是非常好非常流暢的,這也需要歸功于深度神經網絡模型的量化,通過壓縮和加速解決手機性能問題,可適配任意機型。

    多模態技術如何實現精準理解視頻內容

    剛才我講的是我們多模態技術怎樣去幫助用戶更好地記錄,我們同時也希望通過一個更好的分享機制,讓用戶發布的視頻能夠被更多感興趣的人看到。這也涉及視頻推薦里面多模態的一些問題。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    對視頻內容的理解其實是非常難的,這個里面我做了兩個比較有意思的事情。

    第一,我們強調音頻和視覺的多模態綜合的建模,而不是僅僅是單獨的視覺或者音頻,視覺和聽覺兩種媒體的融合,會是未來一個非常重要的事情。

    第二,在工業界做的事情和在學術界做的事情有很大不同,我們有非常多的用戶數據,這些用戶數據是不在傳統多媒體內容研究范疇里面的,但是工業界可以很好地利用這些數據,更好地做內容理解。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    給大家舉個例子,一個男子表演口技的視頻中,如果關閉聲音,僅憑畫面信息,我們并不知道他是在做什么,可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話,你可能無法獲得真實的信息。我們對世界的理解一定是多模態的理解,而不僅僅是視覺的理解。

    像這樣的視頻在快手數據庫中有 70 億,想要理解這么多的視頻內容,必須借助多模態技術。所以我們在這方面也做了非常多的工作,從文本、視覺、聽覺角度去做了很多單模態的建模,包括多模態的綜合建模、有序與無序,以及多模態特征之間怎樣進行異構的建聯,在很多任務內部的分類上也做了改進。

    第二點需要強調的是,像 ImageNET 等很多的學術界研究內容理解的任務有非常好的標注數據集,但是這個數據集對于工業界來說還是太小,且多樣性不夠。我們平臺每天有 1.3 億多用戶以及超過 150 億次的視頻播放,這個數據是非常大的。如果有 150 億的標注數據,做算法就會有很大的幫助,但是現實上是不具備的。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    那怎樣將研究分析技術與海量數據更好地做到兩者的融合呢?我們通過融合行為數據和內容數據,進行綜合建模,同樣大小的人工標注量,利用海量的用戶行為數據,能夠獲得比純內容模型更好的性能,對視頻有了一個更好的理解,進而在多媒體內容的理解和分析方面的算法研究有了非常大的進展,這就使我們在工業界和傳統學術界做這個事情時會更有優勢。

    未來多模態研究的熱點:特征表達與特征對齊

    總結一下,多模態內容解決的問題里面涉及一些模態的轉化,比如怎樣通過 2D 圖像驅動 3D,怎樣通過語音生成文本或者通過文本生成語音,怎樣通過視覺驅動音樂。另外一個應用是我們怎樣通過融合更多信息來驅動內容的理解,其實都是一個多模態的問題。在學術界有很多研究還是停留在單模態,但我個人認為未來多模態會成為更有價值的研究方向。

    多模態研究會有兩個難點或者說熱點:

    第一是多模態的特征表達,也就是在多模態研究框架下怎樣設計單模態的特征,這是一個非常重要的問題。

    第二是多模態特征之間如何對齊,也就是有沒有更好的算法對視覺、聽覺和行為的部分進行統一的建模,這是未來的一個熱點。 快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    幾個總結

    第一,多模態未來會持續帶來更新的人機交互方式,比如我們剛才講的 Animoji 技術,其實它帶來的是一種可以通過人臉控制手機自動生成 Avatar(虛擬動畫)的體驗。原來實現這些效果,需要在好萊塢專門設一個特效室來實現這一點,而現在普通用戶都能享受這樣的技術,所以人機交互會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。

    第二,我認為多模態技術會帶來新的內容形態,原來接入信息更多是從文本、頁面中獲得,現在有視頻,未來可能還會有 AR 或者其它的形式。我覺得多模態 AR 很重要的一點就是強調沉浸感,這種沉浸感其實是通過聽覺和視覺綜合作用才能產生的。

    第三,我認為多模態亟需新的算法和大型的數據,因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習算法來講,需要海量的數據才能解決好這個問題,因為現在深度學習、內容理解的成果,某種意義上是監督學習的成果,有足夠的樣本、算力,所以現在的算法能力基本上還停留在對算力和數據有著非常大要求的階段。而多模態的大型數據是非常難建的,而且多模態解的空間是更大的。因為一個模態解的空間是 n,另外一個是 m,它最后是一個乘積、一個指數級的變化,所以數據集要多大才足夠是一個很難的這個問題,可能需要新的算法來對這個問題進行建模。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    快手科技李巖:多模態技術在產業界的應用與未來展望 | CNCC 2018

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說