數據越多模型越復雜越好？這家P2P公司認為關鍵在于“意識”

本文作者： AI金融評論

2018-06-05 19:48

導語：P2P大數據的問題是，嘴里喊著風控靠大數據模型，身體卻很誠實地要靠高息貸款盈利。

雷鋒網AI金融評論報道，6月1日，GIAC 全球互聯網架構大會在深圳召開。該會議是長期關注互聯網技術與架構的高可用架構技術社區推出的、面向架構師、技術負責人及高端技術從業人員的年度技術架構大會，組委會從互聯網架構最熱門系統架構設計、工程效率、機器學習、未來的編程語言、分布式架構等領域甄選前沿的有典型代表的技術創新及研發實踐的架構案例，分享他們在本年度最值得的總結、盤點的實踐啟示，打造一個分享及討論平臺，改變未來一年的互聯網構建方式。

大會更多的討論的是機構方面的技術創新內容，而在6月1日上午舉辦的Fintech分場上，小贏科技理財研發中心負責人林實立結合小贏科技的互聯網金融數據與應用的演講則是為數不多的業務與數據運用相結合的分享。據介紹，小贏科技成立于14年，是一家快速發展的金融科技公司，累積交易千億，注冊用戶過千萬，林實立主要負責P2P交易系統的設計研發工作。

數據越多模型越復雜越好？這家P2P公司認為關鍵在于“意識”

據雷鋒網了解，小贏科技所采用的數據架構是基于經典的Lambda架構進行選型的，Lambda架構是Nathan Marz提出的一個實時大數據處理框架，其核心思路是將大數據系統架構拆分為Batch Layer、Speed Layer和Serving Layer三部分，其中批處理層（Batch Layer）針對全量數據進行處理，加速層（Speed Layer）針對實時的增量數據進行處理，從而達到可以靈活應對任意規模的數據處理需求。但據林實立介紹，目前小贏科技的數據處理“主要還是在離線處理部分，增量處理還是在待建，并沒有用到很大數據的處理。”

那么，在P2P交易系統中數據是如何被使用的？林實立舉了兩個例子：

第一個例子是邀請網絡分析，是基于用戶生命周期前端的“獲客”行為的數據應用。從業務層面，其希望解答的問題是：邀請的營銷費用花在哪些人上最有效？邀請效果會不會隨時間衰減，具體情況又是什么樣的？

從具體業務場景看，該分析主要研究邀請人與與受邀人注冊時間上的間隔關系，以及邀請層次與邀請效果的關系。通過對數據的分析，用于指導P2P平臺在用戶注冊多長時間后發起補貼最為合適、針對哪些用戶進行補貼最為合適，以及預測一輪邀請補貼在一定的時間內帶來多少新用戶。

小贏科技在對數據分析中發現：對于普通邀請人（一般用戶）和非普通邀請人（自媒體，大V等），在邀請與注冊的間隔時間、衰減效應、邀請層次與邀請效果的關系有著比較大的區別。具體來說，普通邀請人的邀請衰減效應較為明顯，而非普通邀請人的衰減效應相對沒有那么明顯，往往還會出現二次或三次的峰值；如果再進一步量化，普通邀請在發出邀請后到達預期被邀請比例（例如50%）的時間要更短一些，非普通邀請到達預期效果的時間則更長一些。通過經過數據分析得到邀請的事實關系表，可以大致了解到不同邀請人的再邀請傳播系數，以及在什么時間激發、激發哪些用戶、通過什么渠道激發等指標，從而可以指導促銷的投放。

第二個例子則是高凈值聚類分析。其背景則是，客服部門在人力有限的情況下，如何對高凈值用戶進行更有效的發展和維護？在具體的分析過程中，技術部門則根據業務部門定義高凈值用戶范圍，以及高凈值用戶的分類，采用RFM模型進行了分析。

數據越多模型越復雜越好？這家P2P公司認為關鍵在于“意識”

（雷鋒網按：RFM模型是在用戶關系管理中被廣泛應用的模型，按照最近一次消費(Recency)、消費頻率(Frequency)、消費金額(Monetary)三個維度，對用戶進行細分，根據不同的用戶等級分類，采取不同的營銷策略，并為客戶管理提供依據。）

小贏科技將RFM三個指數進行量化：

R：最近一次消費，最近一次投資離現在的天數

F：消費頻率，最近30天的投資次數

M：消費金額，最近30天的投資金額

在聚類方法選擇中采取等記錄數和等總數兩種分類劃分方法，其中R采取等記錄數分類，越小分數越高；F采取等記錄數分類，投資頻率越高分數越高；M采取等總數分類，投資金額越高分數越高，并分為5類按1-5進行評分，在實際業務中，平臺可以根據對于參數的重要程度給予不同的權重，最終加權得出RFM分數，根據分數劃分不同的用戶類別。

互聯網金融行業中，如何發揮數據的最大價值？

或許是為了“留一手”，在分享中所舉的兩個例子都比較簡單，也沒有涉及到諸如“利用機器學習技術進行大數據挖掘”的內容。但這實際也引發了一個問題的討論：在互聯網金融行業中，如何發揮數據的最大價值？

相比起傳統金融服務，互聯網金融將金融服務的渠道從線下轉移到了線上，借助用戶流量紅利，互聯網金融在短時間內發展出了P2P、眾籌、網貸等創新模式，幫助金融行業提高了獲客的手段，從而得到了快速發展。然而在互聯網金融發展的早期，互聯網金融公司的主要利潤來源是“去掉中間環節”和流量變現，在基于業務本身的理解和對基于數據的精細運營上做得并不夠。

隨著2015年對互聯網金融合規整頓的展開、2016年的平臺大混戰、2017年的重新洗牌之后，“金融科技”的提法開始逐步抬頭。從“互聯網金融”到“金融科技”，當中的區別不僅僅是名字上的改變，而是在業務理解模式和經營思路上的轉變，基于數據分析的基礎上，利用機器學習、數據挖掘、區塊鏈、云計算等創新技術手段的金融創新活動。在互聯網金融業務的的資金運營、投資分析、用戶分析、營銷、風控等各環節，金融科技都在發揮著重要的作用。

據雷鋒網了解，互聯網金融企業面臨的主要風險為惡意欺詐，70%左右的信貸損失來自于借款人惡意欺詐，每年互金行業因欺詐所導致的損失在數百億元級別。因此，風控也成為了互聯網金融創新的重地，幾乎每家轉型的互金公司都在稱“我們的核心競爭力是大數據風控”，在對外的宣傳資料中，這些大數據風控模型往往具有幾千個甚至上萬個變量，以“凸顯”其技術實力。

然而在會場，一位不愿意透露姓名的從業人士告訴雷鋒網，大數據并不能完全解決風控的問題。在他看來，目前成千上萬個參數的風控模型過于復雜，并不一定能完全反應實際的風險情況，甚至由于需要考慮的東西太多，可能會影響結果，而且同一套風控體系，換了一個環境效果就會大不相同。

“比如說支付寶的個人信貸業務做得很好，我們看到的可能是基于芝麻信用成千上萬個參數的風控，但實際上可能是因為，如果一個人在支付寶借錢不還，他可能就沒法使用相關業務，沒法在淘寶上買想要的東西，而這是數據上看不出來的。”他和雷鋒網舉例道。

在機器學習領域，過多的無關參數帶來的噪音干擾被稱為“過擬合”。關于參數的一個經典故事是費米曾經說過，“我的朋友馮·諾依曼用四個參數就可以擬合出一頭大象，用五個參數可以讓它的鼻子擺動。”引入更多的參數，可能會增加模型的精確程度，但如果選擇了不恰當的參數，則有可能會反過來干擾結果。

而在實際業務中，基于大數據分析也有著不小的難度。金融業務屬于業務復雜的強監管業務，存在建模困難的問題；同時可利用的數據多元化，但評價往往是有限的。成千上萬的變量，如何將這些多維數據變為能否借款、可以借多少的一維數據，不同風控系統會有不同評價，這也是最具挑戰性的地方。

而且這樣的問題，并不一定能通過“開放數據”的方式得到解決。面對同一個征信系統，各家銀行的效率、風險控制、定價能力并不一樣，面對數據開放后透明的數據，即便有許多可以提供解決方案的金融科技公司輸出技術，但真正決定大數據的效果的，還在于使用大數據這把“屠龍刀”的人。

如林實立在分享中的觀點：數據的運營不在與多復雜，而是有沒有應用的意識，在產品、開發、測試鏈條里對建模流程，有一個清晰的認識，才能有很好的配合，起到實際的指導作用。

但真正做好這一點并不容易，想要在成千上萬個參數中找到對業務起關鍵作用的參數，不同的人群、不同的環境、不同的業務，起決定作用的參數可能各不相同，這對金融公司來說無異于摸著石頭過河，即便碰巧找對了參數，也可能只是“煉金巫師的煉金術”。

“風控靠大數據模型，盈利靠高息貸款”，這也是整個P2P乃至整個互聯網金融目前存在的問題。毫無疑問，大數據的使用可以優化管理，提高風控效率，降低風控成本，但從目前的應用來看，還是有很長的路要走。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

AI金融評論

編輯

關注金融科技前沿！在這里，讀懂智能金融與未來！

發私信

當月熱門文章