央視AI唱作大熱背后是怎樣的技術？

本文作者：趙晨希

2019-03-05 16:37

導語：NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。

春節期間，央視新聞新媒體推出了一款交互產品《你的生活，AI為你唱作》，該款產品是央視新聞聯合微軟全新打造的移動互聯網交互產品。《你的生活，AI為你唱作》融媒體交互產品利用了微軟智能云，包括計算機視覺 (Computer Vision)、人臉識別（Face Recognition）、自然語言處理（NLP）、定制語音（Custom Voice）等業內領先的AI技術。

央視AI唱作大熱背后是怎樣的技術？

首先，在用戶上傳圖片之后，計算機視覺和人臉識別等技術將對照片內容如環境、人物、顏色、表情、主題等進行分析；然后基于對照片的綜合理解，智能歌詞創作系統會自動譜寫符合該照片內容的不同的歌詞；最后，由語音合成技術模擬的央視主持人康輝或微軟智能女聲曉曉會根據歌詞內容結合配樂伴奏進行生動的演唱。用戶就這樣，得到了自己專屬定制的MP3歌曲。

根據官方數據統計結果，《你的生活，AI為你唱作》在央視新聞新媒體各平臺上線僅2小時，用戶參與量就超過了300萬人次，截至2019年2月8日，在各平臺閱讀量3800萬，利用AI聲音創作視頻閱讀量3500萬，微博相關話題閱讀量2700萬，AI相關產品在央視新聞各賬號總閱讀量已超過1億。以上數據直觀的顯示出，該融媒體產品的受歡迎程度。

AI應用產品大規模爆發，正值新舊媒體交替，融合發展之際。借此節點，近日，雷鋒網與其它兩家媒體，一同對參與這個項目的微軟多個團隊進行了采訪。

受訪人:

李冕微軟（中國）資深產品市場經理
韋福如微軟亞洲研究院自然語言計算組資深研究員
李迎彤微軟亞太研發集團云計算與人工智能事業部微軟新視界創新總監
劉越穎微軟亞洲互聯網工程院語音組產品經理

AI唱作交互產品，背后的“故事”

在《你的生活，AI為你唱作》融媒體交互產品中，無論是央視主持人康輝，還是微軟智能女聲曉曉，均采用了微軟深度神經網絡語音合成技術。微軟的深度神經網絡語音合成服務，是基于端到端的神經網絡聲學模型和聲音合成系統開發的。通過優化發音和韻律，該技術可以比傳統的語音合成技術生成更逼真、更自然的人工智能聲音。其中，康輝的聲音更是用到了基于深度神經網絡基礎模型的定制化語音技術。微軟的定制服務平臺僅需要使用說話人的少量語音數據，就可以制作出高質量的不同風格的智能語音，而在這個項目中，康輝的說唱風格就是基于不到半小時的數據訓練的。

而微軟智能女聲曉曉則是微軟面向全球開發者和合作伙伴發布的一個通用聲音。該聲音可以通過微軟認知服務平臺（Azure Cognitive Services）提供的API接口進行實時調用。用戶們可以直接將曉曉的聲音用于智能助理、智能客服、智能汽車、智能朗讀等場景中。據劉越穎介紹，一個有趣的現象是，在《你的生活，AI為你創作》產品中，曉曉聲音的使用次數超過了康輝老師的次數。這也體現出大家對微軟智能女聲曉曉的喜愛。

微軟語音組提到，在《你的生活，AI為你唱作》產品中，主要的語音技術特點為：

產品化的基于深度神經網絡的語音合成技術
定制語音合成所需訓練數據量更少（康輝的數據不到一個小時）。
深度神經網絡的語音合成模型讓聲音更逼真和自然
語音合成可以擴展到多種說話的風格（比如這次的說唱風格）
平臺化的定制語音讓開發周期更短

同時，微軟語音團隊也提到了其它方面的特點：

靈活的部署方案：支持公有云部署；私有化部署；離線部署
多語言國際化支持：微軟語音合成支持全球49個語言，近80個聲音。深度神經網絡支持中文和英文。
工業云計算平臺：微軟語音合成支持全球十幾個數據中心；深度神經網絡可以達到產品級的實時率；支持高并發。
全系列語音支持：微軟語音可以提供整套的語音識別，翻譯，語音合成等解決方案，可以支持智能客服，翻譯等場景。利用微軟語音解決方已經落地的場景如小米9手機王源聲音的定制，ROOBO智能機器人、智能會議系統，微軟翻譯，微軟聽聽文檔等。

正如李迎彤所說，應用要瞬間觸達到很多人的手機上。高并發且巨量的網絡和計算需求，背后需要強大的云端基礎設施做支持。

其實，微軟與央視新聞的合作，源于CCTV團隊春節前在微軟新視界技術展示中心的一次參觀。用李冕的話來說，此次合作偶然中帶著必然，一方面，AI技術不斷出現重大突破。例如去年9月份，微軟率先發布了企業級定制語音合成平臺，企業可以根據自己想要的音色來微軟的平臺上定制聲音。去年12月份，微軟在語音方面進一步實現重大的技術突破，即深度神經網絡語音合成技術，一下子讓原來的語音合成領域，很多不能做到的都可以實現了。具體而言，自然度方面可以更加像人類，語氣、情感方面也得到很大的提升。

另一方面，在行業“轉型”的大環境下，傳統媒體正向新媒體融合發展。傳統企業也需要與新興技術、新興產業結合，順應時代的潮流，承接未來的要求。其實，無論是小米9王源定制版聲音、央視主持人康輝定制版聲音，還是去年微軟小冰入駐小米智能音箱、華為手機，均體現了微軟的全方位AI能力。未來無論是視覺、聽覺，還是語音，在制造業、零售、媒體、教育、醫療、金融等諸多領域會都有相當廣泛的應用場景。

特別是，此次與央視新聞合作的融媒體產品，是來自微軟基礎研究的自然語言部門，以及語音產品部門、智能云產品部門和市場部門的能人們跨部門組成項目組，在不到一個月的時間內與央視深度合作，實現了將用戶輸入圖片以Rap的方式唱出來的即時體驗，融合了多項微軟的AI和云服務。

央視AI唱作大熱背后是怎樣的技術？

（雷鋒網注：微軟亞洲研究院自然語言計算組資深研究員韋福如）

從幕后走到臺前，很多“Highlight”

提問：微軟與央視新聞合作，背后有著怎樣的考量？

李冕：最初當央視提出來合作需求的時候，我們考慮過幾個方向。首先一定是用戶體驗要好。其次，盡管時間緊，但是當時我們想，微軟在AI的各個方面都有相當多的技術積累，可以說是全棧式的，那么我們把步子就邁得更大一些。其實這個項目里用到了很多的不同AI技術，如圖像識別、自然語言處理、語音識別、語音合成等，以及微軟智能云的能力。

所以，最后我們決定在春節這個特殊的時間節點，和CCTV一起推出來給廣大的用戶、網民們一個比較好玩和溫暖的產品體驗。同時，對于微軟內部而言也是檢閱AI和云各部門快速協同和落地能力的機會，所以當時我們就去做了這個項目。

提問：整個合作過程有哪些難點？

韋福如：從自然語言方面來講，用戶對歌詞的要求是什么，有一些不同的地方。因為歌詞講究更接近生活，朗朗上口。輸入部分，要從圖片里獲得盡可能多的信息。如最基本的要知道圖片中是什么環境，有什么物體，有沒有人，有幾個人，大概年齡等等。還有一些更細致的內容，比如，人的性別，表情如何，顏色背景等等……我們需要把這些圖像處理的結果映射到歌詞生成用到的關鍵詞，然后再用基于深度學習的歌詞創作模型一句一句生成整首歌詞。但事實上，圖片識別的一般結果從數量和類別上都很難滿足歌曲作詞所需要的想象力要求，這就需要我們把這些信息再處理到更細致的關鍵詞上去，然后從這些關鍵詞再生成歌詞。一般歌詞有十來句，甚至一二十句，所以需要做更多的處理。

同時，還需要基于很多數據。數據方面大家很容易想到的是歌詞，我們抓取了很多歌詞。用戶從生成的歌詞中應該感受到了中國傳統文化的氣息，這其中我們使用了宋詞去訓練模型。另外一個難點，大家熟悉的歌詞或者宋詞，整體上可能感物思人、傷春悲秋的比較多。但是春節期間，我們希望大家都開開心心。所以在這方面我們也在算法上做了調整。比如我們會盡可能讓算法生成積極一些的句子，另外包括有一些多音字，也會做相應處理。所以從技術上來講，一個是長期的積累，包括技術和文化；第二個是針對這樣特殊的應用，做一些細節上的適應調整。

當然，人類的創造能力是很強的，機器的優勢則更多表現在記憶。比如韻律，一般人不太容易掌握，但是對于機器和算法來說，則很容易做到。基礎研究上還有很多很長的路要走，AI在創造內容方面的能力還是有限的。

提問：不管TTS（Text to Speech）也好，還是圖象識別也好，遇到的最大困難是什么，怎樣解決的？

韋福如：比較難的是，通過圖像輸出給出歌詞還是太抽象了。比如，它只知道里面有人臉，只知道里面有人，或者只知道里面有幾個人。這種情況下，去寫歌詞非常難，所以我們需要把這些信息處理到更細致的關鍵詞上去，然后從這些關鍵詞再生成歌詞。歌詞有十來句，甚至一二十句，實際上要做更多的處理。

李冕：我們的場景有點像是小學語文考試里面的看圖作文，給你一張圖。當然我們這個是彩色圖，那個是一張圖或者是兩張圖，然后讓你編出一個作文來。我們做的有點像看圖做詩，整條鏈路下來，中間的坑點其實是挺多的。

提問：可以重點介紹一下微軟在閱讀理解方面的優勢嗎？

韋福如： SQuAD機器閱讀理解數據集，最近兩年特別火。在工業界和研究領域都得到了廣泛的關注。

2018年1月，微軟亞洲研究院提交的模型在EM值上以82.650的最高分率先超越人類分數82.304。9月份，我們的模型在EM值和F1值兩個維度上，以85.954和91.677的分數首次全面超越人類在SQuAD數據集上的表現。2019年1月，基于BERT開發的最新系統又在SQuAD2.0和交互式、多輪閱讀理解數據集CoQA上持續領先。

提問：人工智能的“表達方式”，畢竟不同于人類。人類具有感情、思維，在說話的過程中兼具情感的表達，同時也是一個自然人性格、個性的重要體現方式。情感的表達體現在算法上，是怎樣一個過程？微軟TTS在機器情感輸出方面有何看法？

劉越穎：機器的情感主要由兩方面決定：數據和算法。微軟TTS（Text to Speech）在數據采集時，與以往不同，更注重情感和意思的表達。同時，基于深度神經網絡TTS的算法具有更強的學習能力，可以更好的還原情感，具有更高的自然度。最后，我們加入了多情感和多風格的聲學建模，并在合成中進行精確控制。

提問：中文表達與英文等存在語種差異。對于人類而言，換氣、停頓、同音字、斷句的判斷，是很容易的過程，對于NLP就比較難。請問，微軟在“仿人類”語言的細節處理方面有什么經驗以及進展？

劉越穎：微軟在語音方面已經做了很多年。包括從最開始的參數合成、單元拼接，到這次的深度神經網絡的語音合成，都是一步步積累下來的。此次的深度神經網絡，跟原來不一樣。傳統的做法可以理解為每個音都拆成不同的單元，通過比較大量的音節單元的積累，就可以把不同的音節單元拼接起來，拼成一句話，但那種合成是比較機械，拼接過程中不圓順的地方就會有機器感，或者是不太自然的地方。

但是深度神經網絡語音合成，是一個端到端的語音合成系統，包含端到端的聲學和韻律建模，以及聲音合成模型。可以克服傳統語音合成系統的局限性，優化口語和唱歌中的重音，語調和節奏，大幅提升了語音合成的表現力，具有更自然的韻律和更豐富的情感。

中文表達主要涉及停連、重音、語氣、節奏，以及對內容的理解。微軟深度神經網絡TTS可以逼真地還原人類的換氣聲音，使得語音合成更具有人類的特征。對于斷句、停頓、多音字，微軟針對不同語言要素，進行有針對性的建模，然后利用端到端的聲學建模，從真實語音中學到最適當的表達方式。

提問：除了語音技術，還用到其它哪方面的能力？

韋福如：我們會用很多不同的圖像識別技術，有數十萬個標簽和一百多個類。有幾張人臉時，能知道這個人是開心的，還是處于怎樣的狀態。以及圖像中人物的性別，我們需要拿這些信息去創作歌詞。拿到圖像識別信息之后，首先要把這些信息，大概歸類到一些歌詞的關鍵詞上。第二步是再把歌詞一句一句生成出來，這個時候就用到序列對序列的生成模型。

提問：此次合作中，存在的商業潛力是什么？

劉越穎：現在是多元化、個性化的時代，每個產品或者是公司都希望有一個自己的形象。這個形象不僅僅是可以基于圖像層面的，也可以是基于聲音的。未來聲音定制會是一個趨勢。每個企業、設備、個人都會有一個獨特的人工智能定制聲音，讓語音融入生活的更多角落。此外，深度神經網絡可以降低訓練所需的錄音數據數量，這樣就會讓聲音定制更加成為可能，這是一個很好的合作點。

提問：此次合作，微軟在云計算方面有哪些部署？

李迎彤：從云計算的角度來講，就像日常工作生活中用到的電，大家都用電，但是并不會去特別留意它的存在。我們發展云計算也是一樣，要為大家提供最好的性能，最好的體驗。目前，微軟在中國有大量云計算的基礎設施投入，這次我們就運用了云平臺數據庫和網絡服務。微軟目前在中國建有四個數據中心分別位于北京、上海。通過云端網絡技術，對不同地域的請求進行快速響應。

另外，我們覆蓋全中國的內容分發網絡，可以保證用戶在體驗的過程中，不會受到網絡帶寬的影響。《你的生活，AI為你唱作》在央視平臺的推出，是面向全國范圍甚至更廣的用戶。所以我們要保證這些受眾都能夠有一個好的、快速、高效的體驗。這一定是因為我們在基礎設施上做了大量的投入，才能做到這樣的保障。

李冕：我們做了很多CDN的加速，我們的機房離主要的節點都很近，總體的速度還是很快的。從上傳的速度，包括并發的響應上，在后臺看CPU跳躍的數字，我們覺得還是非常安心的。

央視AI唱作大熱背后是怎樣的技術？

（雷鋒網注：微軟亞洲互聯網工程院語音組產品經理劉越穎）

走過青銅、白銀，迎來“黃金時代”

比爾·蓋茨曾說過，“語言理解是人工智能皇冠上的明珠”。NLP的歷史幾乎與計算機和人工智能AI的歷史一樣長。換句話說，計算機誕生那一刻，人工智能AI也應運而生。人工智能AI研究最早的領域就是機器翻譯以及自然語言理解。

微軟亞洲研究院自1998年創建以來，就給予NLP足夠的重視。微軟亞洲研究院官方數據顯示，截止2018年11月，共計發表100余篇ACL大會文章，出版《機器翻譯》和《智能問答》兩部著作，培養了500名實習生、20名博士和20名博士后。

微軟開發的NLP技術，包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機器翻譯、知識圖譜、聊天機器人、用戶畫像和推薦等，已經廣泛應用于Windows、Office、Bing、微軟認知服務、小冰、小娜等微軟產品中。與創新技術組合作研發的微軟對聯和必應詞典，也已經為成千上萬的用戶提供服務。

21年的時間里，無論是微軟亞洲研究院，還是AI行業。走過荒蕪、貧瘠的土地，逐漸迎來辛苦耕種后的種種“收獲”。那么，對于現在抑或將來，微軟TTS正在做著哪些努力？

提問：微軟近期在TTS領域有什么新論文或者新突破，可以介紹一下，突破點以及對行業的影響？

團隊總結：2018年12月，微軟語音在微軟Azure云上發布了創新性技術突破——端到端的深度神經網絡語音模型，將語音合成帶入一個高保真的新階段（參考英文版blog）。深度神經網絡語音合成技術讓語音合成的的質量以及語音模型的制作又上了一個新的臺階。我們可以感受到語音更自然；訓練模型需要的數據量更少；支持語音模型也快速擴展到多種說話的風格。

微軟語音合成技術已經在世界頂級期刊和會議發表了多篇論文。

LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019.

Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.

A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.

提問：AI語音和自然語言處理是否存在技術、產品周期長、落地比較難的情況，從實際的落地情況來看，微軟在這方面有什么進展？未來有哪些努力的方向？

韋福如：我自己不覺得NLP技術落地有多么難，實際上大家每天都在用，比如說搜索、輸入法和翻譯，都會用到自然語音處理的技術。當然，單純靠自然語言處理的技術驅動的面向大規模用戶的應用和服務，目前還不是特別成熟，這個主要還是有需求和場景，要能解決用戶的實際問題。

反過來看，現在機會在NLP，不管是從研究上還是外部的市場機會。包括很多VC也在關注。從研究上來講，2018年大家說是NLP之年，就是自然語言處理之年。已經有很好的一些進展，比如谷歌的BERT這樣的預訓練模型啟發了新的研究課題，讓通用語言理解成為可能且值得深入探索和重點投入的研究方向。目前，在自然語言理解的任務上，預訓練模型很好地緩解了標注數據少和跨領域的問題，而這正是實際應用中遇到的實際問題。

落地的機會也很多，在通用的理解之后，能夠比較快速地去適配到一些特定的領域。然后在標注數量比較少的情況下，也可以做到不錯的結果，這都是在實際中遇到的問題。我認為接下來NLP不管是研究上，落地上，還是從市場上都應該是有非常多機會的。

劉越穎：傳統的AI語音合成技術存在產品周期長的問題。因為聲音采集的數量大，時間久，成本高。經過微軟語音團隊多年來的研究和技術更新，目前已經率先實現了平臺化、產品化的語音合成服務。首先，深度神經網絡模型可以大大降低聲音采集的數量和成本，并且在自然度和保真度上很好的還原人聲。同時，微軟提供了平臺化的定制語音服務，用戶可以自定義語音合成數據和模型，讓開發周期更短，適合更多的個性化應用場景。所以，未來人工智能語音會有更多的落地場景，也為用戶帶來更豐富的體驗。

目前，微軟語音產品已經被應用于微軟的各類人工智能產品和平臺上，包括了微軟小冰，微軟小娜（Cortana)，Windows，Skype，認知服務（Cognitive Service），微軟翻譯等。

此外，微軟語音產品也積極與第三方企業在更多場景上合作，包括智能助理、智能客服、智能汽車、智能朗讀等領域。除了這次CCTV的項目外，微軟語音和小米手機合作，在最新的小米旗艦機Mi9的手機內，定制了王源的明星聲音。通過語音的橋梁，拉近了粉絲與愛豆的距離。未來聲音定制會是一個趨勢。每個企業，設備，個人都會有一個獨特的人工智能定制聲音，讓語音融入生活的更多角落。

提問：未來AI方向有哪些機會？

李冕：我覺得AI的方向有三個機會。一個是，注入式AI，就是把AI技術融入到現有的產品和服務里。

第二個，有很大機會的是知識挖掘，例如搜索引擎可以看作是基于全網數據的通用知識庫的挖掘，已經相對成熟。但在專業知識庫，比如現在大多數企業內部，有很多數據孤島沒有打通。所以我們認為自然語言處理現在有能夠落地的點。

第三個，是提供機器學習的工具和平臺之上的高價值產品和服務。比如，幾個人攢個小團隊，也能做出人臉識別的產品。但并沒有多少公司能提供AI落地到生產場景之后對業務的進一步響應。例如，高鐵的閘機需要7×24小時要響應數據，這部分也可以叫做AI數據推理，應該是AI技術供應商能提供的增值服務，這樣才能幫助各個傳統行業的企業客戶能夠真正將AI落地，并發揮更大的價值。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

趙晨希

編輯

簡單是終極的復雜。WeChat：chenxi252516

發私信

當月熱門文章