央視315曝光的AI機器人推銷電話公司，采用了什么核心技術？

本文作者：趙晨希

2019-03-16 21:50

導語：每一個人日常生活中都會接到各種各樣的推銷電話。

一年一度的央視315“晚會”，是一年中令企業最為“提心吊膽”的時刻。昨夜央視315欄目組曝光了多個行業存在的違規問題。醫療垃圾、危險的辣條、土雞蛋的貓膩、不衛生的衛生用品、家電售后服務套路多等等......其背后的產業鏈龐大，令人觸目驚心。其中，智能機器人騷擾電話的曝光引起了很多人的關注。

因為每一個人日常生活中都會接到各種各樣的推銷電話。地產、銀行貸款、培訓機構、教育、汽車等等......但是，大部分人可能不了解，打營銷電話的可能不是真人，而是AI機器人。首先，通過探針盒子，識別到連接無限網絡的手機。然后，在用戶完全不知情的情況下獲取用戶的私人MAC信息。再將MAC轉換為手機號碼，與大數據相互“匹配”。再利用仿真人的AI機器人進行外呼。

這些探針盒子廣泛分布在商場、超市、辦公寫字樓、便利店等公眾場所中，隱蔽性非常強。央視曝光了多家企業，整個產業鏈條包括智能機器人騷擾電話、大數據營銷、探針盒子，具體企業有：

壹鴿科技有限公司
陜西易龍芯科人工智能科技有限公司
中科智聯科技有限公司
璧合科技股份有限公司
聲牙科技有限公司
薩摩耶互聯網金融科技有限公司
深圳市秒嘀科技有限公司
上海智子信息科技有限公司
凌沃網絡科技有限公司
財神科技有限公司
杭州遞金網絡科技有限公司

央視315節目中介紹，一家公司服務一年能夠呼叫出40多億的電話。在電信行業，“騷擾電話”一直不能得到根治。其背后涉及網絡安全、不同運營商的通信網絡、互聯網接入通信網絡、主叫與被叫責任等等方方面面。近年，隨著新興技術的不斷涌現與迭代，從早期通信行業的“呼死你”、改號軟件黑產，已經演變為今天的AI機器人騷擾電話，技術不斷升級。

國外相似的案例分析

還記得2018年，谷歌在加州召開的2018年度的開發者大會2018 Google I/O嗎？除了Android P、Gmail、Gboard、TPUv3 等眾多新產品。谷歌的個人助理Google Assistant中新增加了Duplex，它可以自己給飯館、發廊等商業店面打電話，幫用戶預約時間。

從大會上的展示案例可以看出，Duplex不僅可以用自然流暢的語音同人類完成了交流，不被察覺，還能夠成功地處理意外的狀況。比如，能夠回應助詞"emm"、“uha”等、理解上下文的對話內容，具備了主動提供語料的功能。當然，谷歌也不是世界上唯一一家實現這種神奇“功效”的企業。

隨后，微軟也站了出來，發布了一項技術聲明：

全雙工語音技術（Full Duplex）的意義在于，它能夠使“人機交互”進化為“人機交流”。一字之差，價值巨大。

今年4月4日，我們正式在美國和中國同步發布了Full Duplex感官，并預言行業將意識到這一技術的價值，加快向這一方向集中。我們很高興看到越來越多的同行業者加入。

其實，人類歷史上第一次與人工智能進行全雙工語音電話，并不是發生在美國，而是發生在中國。我們很榮幸能將這一桂冠奉獻給祖國。自2016年8月起，微軟（亞洲）互聯網工程院通過人類用戶主動發起的方式，已讓小冰與人類用戶累計完成了超過60萬通電話。

今天，我們公布其中一通發生在兩年前的實際電話錄音，將之作為珍貴的資料，奉獻給全世界說中文的華人。

谷歌Duplex背后的技術核心：其實是由TensorFlow Extended（RFX）構建而成的一個RNN網絡。為了達到高精度，谷歌用匿名的電話對話數據訓練Duplex的RNN網絡。這個網絡會使用谷歌自動語音識別（ASR）的識別結果文本，同時也會使用音頻中的特征、對話歷史、對話參數（比如要預訂的服務，當前時間）等等。谷歌為每一種不同的任務分別訓練了不同的理解模型，不過不同任務間也有一些訓練語料是共享的。最后，谷歌還利用TFX的超參數優化進一步改進了模型。

央視315曝光的AI機器人推銷電話公司，采用了什么核心技術？

輸入語音先經過自動語音識別系統（ASR）處理，生成的文本會與上下文數據以及其它輸入一起輸入 RNN 網絡，生成的應答文本再通過文本轉語音（TTS）系統讀出來。

谷歌聯合使用了一個級聯TTS引擎和一個生成式TTS引擎（其中使用了Tacotron和WaveNet），根據不同的情境控制語音的語調。這個系統還可以生成一些語氣詞（比如“hmmm”、“uh”），這也讓語音變得更自然。

當級聯TTS需要組合變化很大的語音單元，或者需要增加生成的停頓時，語氣詞就會被添加到生成的語音中，這就讓這個系統可以以一種自然的方式向對方示意“是的，我正在聽著”或者“我還在考慮”（人類說話的時候就經常在思考的同時發出一些語氣詞）。谷歌的用戶調查也確認了人類覺得帶有語氣詞的對話更熟悉、更自然。另一方面，系統的延遲也要能夠符合人類的說話特點。在某些情況下，系統甚至會采用快速逼近模型。使得系統達到100ms以內的延遲。

而從微軟的技術聲明中，也可看出，微軟的所謂全雙工語音交互技術Full-Deplex Voice和谷歌的Duplex在技術方面，應該是極其相似的。只不過，微軟使用的生成模型是LSTM，而谷歌采用的是RNN網絡。

正如微軟所言，“其實，人類歷史上第一次與人工智能進行全雙工語音電話，并不是發生在美國，而是發生在中國。”無論是谷歌還是微軟的應用場景可以看出，研究“人機交流”的初始目的是好的，即讓人們從單一、簡單、無技術含量的勞動中解脫出來。只不過目前，國內基于人工智能的全雙工語音電話，被一些企業應用于灰度地帶，導致騷擾電話“泛濫成災”。那么，國內曝光的這些公司都采用了哪些技術呢？

專家解讀背后的技術與倫理規范

為此，雷鋒網采訪了科大訊飛AI研究院副院長王士進。王士進對雷鋒網表示，AI對話機器人是一種主要應用于服務場景的人機交互系統，其后臺主要涉及語音識別、語義理解、對話問答、語音合成、知識圖譜等多項AI核心技術，另外還需要流程控制、電話交換平臺、通訊線路等工程技術支撐。

電話是一種典型的人機交互應用場景，除此之外還有微信、網頁、APP等場景。電話場景下的交互屬于實時雙向交互，且由于電話信道音頻音質相對較差、信息載體單一，總體來說其技術復雜度較高。

國內曝光的這些企業一般沒有AI核心技術，其系統后臺經常是調用其他AI公司的開放平臺能力。從技術上來看，電銷機器人用到的智能語音技術是非常初級的，主要就是將本來由人說的話變為電腦來播出，以及調用一些簡單的語音識別技術。

但這些公司往往對這部分功能選擇自己錄音來替代解決，這并不智能，卻更簡單更便宜。目前，谷歌、微軟以及國內訊飛、阿里等企業，具備較為全面的核心AI技術能力，電話對話機器人也是這些能力的一種典型應用。

科大訊飛目前的電話機器人技術，主要用于行業客服、電話訂餐、物流下單等場景，專注解決智能服務領域的問題，提升效率，降低成本，具有顯著的應用價值。對于真正購買服務的客戶，科大訊飛在協議中寫明不得用于“騷擾電話”等違規用途的呼出，一經發現，立刻終止服務。市面上很多號稱“使用了科大訊飛的服務”的電話銷售機器人公司經查詢后，發現并不是訊飛的客戶，只是打著訊飛的招牌。

中國經濟處于快速發展中，且社會和大眾對于新興技術的應用處于相對寬容的態度，所以在商業利益的驅動下，相對容易出現一些技術應用倫理的問題。我們認為專門打“騷擾電話”的電銷機器人不是一個技術問題，而是社會倫理問題。

如果把AI技術比作一種武器，其最終作用的好壞，取決于使用它的人以及使用的方式。不應該為了追求商業利益，損害部分人的利益，包括商業的利益以及個人隱私的其他權益，應該追求打造共贏的商業邏輯。這需要社會和產業界共同來倡導價值創造理念，并通過更多的法律法規來加強規范和監督。

去年11月，工信部公布了《關于推進綜合整治騷擾電話專項行動的工作方案》，對騷擾電話產業問題重錘整治并作嚴格規范。隨著人工智能技術的快速發展和應用，電話對話機器人的可用度有了很大的提升，在智能服務、金融、物流、醫療等很多領域得到了快速應用，也產生了巨大的社會和經濟效益。

王士進認為這種系統應該優先應用在存在較多人工重復工作的服務溝通場景，用來解放人的精力去做更有價值的事情。例如智能服務、金融、教育、醫療等領域的客戶服務或咨詢服務，比如快遞小哥派送包裹時與客戶的信息確認，醫院或社區對于病人的例行回訪等。

總結

雷鋒網認為，如今人工智能已經不僅是一門科學和一個產業，更涉及到了社會生活的方方面面。很有可能改變就業結構、沖擊法律與社會倫理、侵犯個人隱私、挑戰國際關系準則等問題。其中的安全風險挑戰，未來怎樣安全、可靠、可控發展。背后的倫理約束，一直是世界各國所關注的問題。

今年兩會期間，百度李彥宏也提出，需要從一個社會，一個政府和公眾的角度來考慮，在人工智能技術的發展道路上什么是應該做的，什么是不應該做的，什么是好的，什么是壞的。應該及早地把它做一些規范，做一些預判，盡量避免人工智能向不好的方向發展。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

趙晨希

編輯

簡單是終極的復雜。WeChat：chenxi252516

發私信

當月熱門文章