中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

本文作者：楊文

2017-12-28 21:48

導語：分享總結

雷鋒網AI科技評論按：隨著諸如 Twitter、Facebook、新浪微博等社交平臺的興起，每天有成千上萬的消息在這些平臺上產生并傳播。在如此大體量的消息中，如何能提前預測某條消息在未來的關注轉發量（流行度），對于用戶和平臺而言都具有很大的意義。因此，本文將為大家介紹目前的網絡信息流行度預測研究進展，以及中科院博士生曹婍提出的基于深度學習技術的端到端流行度預測框架（DeepHawkes 模型）。該工作已被國際會議 CIKM 2017 錄用并發表。

曹婍，目前就讀于中國科學院計算技術研究所的網絡數據科學與技術重點實驗室，碩博生。碩士導師為沈華偉研究員，博士導師為李國杰院士。本科畢業于中國人民大學信息學院。目前主要研究方向為社交網絡上的信息傳播建模及預測。

分享題目：基于深度學習的社交網絡流行度預測研究

分享視頻鏈接地址：http://www.mooc.ai/open/course/356

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

分享內容

社交網絡上消息流行度預測問題的背景簡介
現有消息流行度預測的方法以及存在的問題
介紹本人最新提出的基于深度學習技術的端到端流行度預測框架（DeepHawkes 模型）
對于流行度預測問題的一些思考以及心得體會

相關背景

現有的社交平臺的興起，為我們信息的產生和轉播帶來了極大的便利。光新浪微博每天至少有一千萬條微博產生，但并不是所有信息都能獲得同樣的關注度。在社交網絡上，消息之間的關注度也是很不均勻的，大致也遵從二八法則。

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

信息在社交網絡上的傳播有什么特性？

不同于傳統的信息傳播平臺，像電視，報紙，更像是一對多的廣播平臺，也就是有一個源發者。而在微博等社交網絡上存在一個關注關系和轉發關系，所以在信息的傳播上過程中，會產生一個級聯現象。

這種現象在社交網絡上是獨有的，同時也給社交網絡上的信息傳播預測帶來很大的困難。中間任何一個人的參與轉發，最終都可能導致信息在最后的流行度有很大的變化。比如有一個大V轉發，信息傳播可能就會有一個爆發式的增長。

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

如何形式化定義這個問題？

第一種是把它當做分類問題，也就是預測消息在未來的流行度是否達到一個特定的預值，或者呈現一個翻倍的情況。第二種是把它當做回歸問題，也就是說預測消息在未來具體流行度的量級。相對來說，第二個回歸問題較難。

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

把它當做一個回歸問題后，如何定義這個問題？

首先給定一個觀測時間后，我們能夠觀測到消息在觀測時間內的轉發情況。要預測的目標就是在觀測時間窗口到最終預測時間窗口之間的流行度的增長量。

為了能更好體現預測的難度，我們把已知的觀測時間窗口內的流行度直接去掉，直接來預測觀測時間到預測時間中間的增量流行度情況。

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

現有的研究方法都有哪些？

現有方法可分為兩類。第一類是基于特征的方法，第二類是基于生成式過程的方式。

第一類是站在非常傳統經典的機器學習角度來做的，大家的主要貢獻點在于特征的提取上。現有的方法主要提取以下這四類特征：

消息內容特征
原發者或轉發者相關特征
傳播結構特征
時序特征

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

以內容特征為例，在提取內容特征的時候，包括會提取文字里面是否包含特定特征，還有整篇文字情感的正負向比例。這些都屬于消息的內容特征。

用戶的特征，包括原發用戶和轉發用戶特征，原發用戶特征提取包括年齡，性別，注冊時間，活躍度以及他的粉絲數等等。轉發用戶的特征提取和原發用戶類似。

結構特征包括兩個，第一個是在原始的社交網絡上形成的結構，第二個是在某條特定消息傳播過程中所形成的傳播圖結構。會提取圖的連通性，廣度，深度，以及初度，入度等等。

時序特征，主要是指在傳播過程中，傳播速率有什么變化。

這樣一類通過特征提取，然后利用機器學習方式來進行流行度預測建模的方法是比較傳統和比較寬泛的。但我們可以看到在這過程中，并沒有對信息傳播的深入動態過程進行理解。而只是通過提取各種各樣特征盡可能擬合這樣一個結果。它是直接受未來流行度預測監督指導的，一般這樣的模型預測比較好，但對于我們理解信息傳播過程是有缺陷的，因為沒有對傳播過程進行建模。

第二類生成式方法，是在原有的特征提取基礎之上，能夠建模信息傳播動態過程，能夠探尋信息在傳播過程中的一些機制，把這些機制建模好。

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

自增強泊松過程

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

Hawkes過程，每一次的轉發都會對未來消息帶來新的激勵

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

生成式方法中，它是為每一條消息單獨建模訓練的，它會對觀測時間窗口內的每一個事件進行觀測，建模的時候，是通過使觀測時間內的事件發生概率最大化來學習得到參數的。它一方面有非常好的可理解性，但同時由于監督的數據是觀測時間窗口內的每個事件的發生，而不是未來要預測的增量流行度。預測的性能是有缺失的。

因此促使我們希望能夠設計一個模型，在受未來流行度監督之下，怎樣把生成式過程中關鍵機制和因子刻畫到，這樣就能即具有比較好的預測性能，同時也對消息的傳播過程有一個較好的理解能力。我們提出了DeepHawkes模型。

DeepHawkes 整體運行框架

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

實驗數據來源及場景

以下分別是微博場景下預測一條消息在未來的轉發度和在論文場景下預測未來論文引用量。

中科院曹婍：基于深度學習的社交網絡流行度預測研究 | 分享總結

總結：我們提出DeepHawkes模型，在端到端直接通過未來流行度監督的深度學習框架之下，刻畫了已有的Hawkes模型當中的信息傳播過程中比較關鍵的因子或機制。同時，我們對這三個機制也進行了一定的改進和擴展，包括用用戶學到的embeding來替代原先啟發式的用戶粉絲數，以及建模了整個轉發路徑的影響，而不僅僅是當前的轉發用戶。還有，我們使用了非參方式來靈活刻畫學習特征和學習時間的衰減效應。

感興趣的同學可以在ACM的論文庫里下載這篇論文。論文題目：DeepHawkes：Bridging the Gap between Prediction and Understanding of Information Cascade

雷鋒網提醒大家，如果您對DeepHawkes模型的細節感興趣，可以觀看GAIR大講堂回放視頻。

視頻鏈接地址：http://www.mooc.ai/open/course/356

雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。