成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給李尊
    發送

    1

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    本文作者: 李尊 2016-10-20 23:44 專題:2016中國計算機大會(CNCC 2016)
    導語:浙江大學陳純教授三個案例帶你看懂流式大數據實時處理技術、平臺及應用

    編者注:陳純,計算機應用專家,浙江大學計算機科學與技術學院教授,中國工程院院士。是國家教委“跨世紀優秀人才培養計劃”首批入選專家,第三屆中國青年科技獎獲得者。目前是國家列車智能化工程技術研究中心主任,國務院學位委員會學科評議組成員。陳純教授長期從事計算機應用領域的前沿研究工作,在著名國際學術期刊和會議發表論文160多篇,曾獲國家技術發明獎二等獎1項,國家科技進步獎二等獎2項,國家科技進步三等獎1項,省部級科學技術一等獎6項。

    今天CNCC 2016在山西太原盛大開幕,開幕演講中,CCF會士、中國工程院院士、浙江大學陳純教授做了題為“流式大數據實時處理技術、平臺及應用”的報告,以下為報告內容精編。

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    各位領導、各位嘉賓、各位同仁上午好,我今天所講的題目是流式大數據實時處理技術、平臺及應用。

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    流式大數據

    流式大數據從這個角度看,可以把大數據分成兩個:一個是批式大數據,另一個是流式大數據。

    舉個例子來說

    我們把數據當成水庫的話,水庫里面存在的水就是批式大數據,進來的水是流式大數據。

    10年前,從傳統的三架馬車開始到現在組成了60、70個相關龐大的生態圈。重點我們可以看到,從2012年開始,才關注了流式大數據,就是數據流的模式。在之前,所有的大數據算法和系統就是批式大數據,從12年開始才專門針對流式大數據的組建。

    由于數據流的處理,應用場景主要是兩類:

    一類是互聯網

    另一類是移動互聯網

    移動互聯網和互聯網的個性服務,不斷提升用戶體驗對實時要求也是非常高的。一般要樣本性的相應,而互聯網的傳感數據,通過智能分析來經營決策的。這以前大數據的分享,我們可以把它分成事后的風險和追溯,而更重要的應用事中的分析、處理。

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    現有的解決方案主要是兩種:

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    • 一種集群式、分布式的解決方案,但是其實時響應比較慢。

    • 另一種是組建流式大數據,即內存計算,但它的實時相應數據規模受限。

    但是大數據的處理技術,主要有四個難題。它們分別是:

    • 基于分布式內存的運行計算

    可能很多臺計算機,每臺計算機多CPU,你一個任務下去,在計算機上同時進行內存的計算,它都是可以做到分布存儲。

    • 海量歷史數據高性能的分析

    當你流進水庫的實時,不僅僅是處理流的數據,而且還要把你存在數據庫的數據一起建立起來。因為這個時間窗口,要重復計算問題,并且有海量數據的復雜增量要計算。

    • 數據流進來后,怎么樣把流式數據跟歷史數據一起計算?

    所謂大數據,流式是必須要算的,解決辦法就可以從增量基礎上入手。

    • 要用模型解決實際應用的問題

    張老師說像統計的模型,基于規則的模型,這些模型能夠很好的結合。所以要把實施處理的分析模型分開,這樣就能針對不同的問題進行可以計算。

    這四個就是最重要的四大問題,我們現在的研究成果——流立方的實時計算,把數據時間窗口、計算指標加上最核心的增量計算,也就是解決分布的存儲的性能,與基于內存的計算更好的結合在一起。

    流立方

    現在我們來介紹下流式大數據實時處理平臺,我們知道這個平臺不僅僅是流立方計算引擎。結合大數據,相當于流立方的計算引擎要從60多個組件里面,抽取部分構成這么一個平臺,同時還要加上分布存儲、數據庫,包括大數據的云處理平臺,還有其他地方來構成這個平臺,實際上這個平臺是非常強大的系統。

    下面介紹有應用,這個是流立方應用的框架。

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    紅線里面都是以流式大數據存在的計算指標、統計指標,左邊是有一個分析處理模型,這個模型是可以基于數學模型指導。所以,當你把一個要解決的問題,比如說:

    下圍棋要學習,就可以把下棋的棋譜傳進來。可以在這個平臺上進行計算,這是外部應用系統。

    它可以應用很多,流立方實時平臺上在原有基礎系統上,做一個并行系統實時檢測,通過專業知識、模型來實時分析。

    下面具體來看幾個案例:

    金融風控反欺詐

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    我們每個人刷卡、消費、支付的時候,實際上到了銀聯的風控系統,來判斷你是不是騙子。

    原來支付系統很簡單,通過計算機、通過手機直接進入支付。但是你可能是受到詐騙,這個時候怎么辦?

    以前的系統到了晚上12點,銀聯把今天的數據重新統計下來,會發現有多少詐騙。后來在互聯網上,每個人要發一個U盾來驗證。當你支付的時候,要判別這個錢要不要付出去,在數據上做一個判別,就是風控引擎。

    這個風控引擎就是抓互聯網詐騙的工具,目前銀聯正在使用的這個系統

    計算只有4臺PC,可以每秒并發處理5萬。而規則有幾百萬,是通過機器學習來實現的。

    要特別強調,所謂大數據應用,離不開這么一個架構。因為首先,我們要知道數據最重要的是標識數據。用手機、還是電腦進行詐騙,以前的處理就簡單——比對就好,不用的大數據規則。這種則需要去分析,所以要有標識。因為是大數據分析,所以要有技術、設備的指南以及結合規則。

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    現在電子支付上,除了螞蟻金服和微信支付是自己做的風控以外,基本上所有的系統都是基于流立方來做的。

    反爬蟲系統

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    第二個例子,是用流立方系統做一個反爬蟲系統。

    現在所謂的大數據,最開始是爬別人的數據,把別人的數據爬來監聽其商業模式。

    15年、16年的時候網站大部分是在爬蟲在爬,遍布各類網站,包括銀行類、政府類、社交類等等。消耗我們資源、影響正常分訪問、增加運營成本。

    現在用的流立方這個系統,它可以把增加數據的服務,把數據的指南、人機的識別、爬蟲的行為分析都考慮進去(用安全專家、網絡專家規則的形式把它考慮進去)。這個就是非常好的實時爬蟲修補了。

    流立方平臺能把控基礎、風控引擎,針對爬感知到所有信息。當你做風控系統的話,先對風控模型進行觀測,再啟用風控。

    鐵路售票網12306

    第三個案例,我想就是跟大家可能更緊密,就是鐵路的售票網站2306。

    我們知道原來12306訂票的話,需要一個什么?圖片驗證碼。為什么要有這個圖片驗證呢?就怕的什么?黃牛來扒票、欺詐。

    但是,當我們真的去訂票的時候,復雜的驗證碼可能很麻煩。現在對12306投訴最多的是我驗證碼辨別不出來,第一次驗證不出來,第二次還給你更難的圖片。因為你分辨不出來,它就認為你是黃牛了,把更難的給你了。

    這個很復雜,我們覺得好像是把黃牛打完了。但是他做了爬蟲,就眾包給大爺、大媽,所以現在還是沒辦法,黃牛來倒你票的時候,是給退休大媽、大爺做的。這個最后很麻煩,投訴越來越多。

    那么,我們有沒有可能做出類似的人工智能,實時根據黃牛的行為分析,根據他的手機號、身份證,能定出幾百條的規則來實時處理?

    這個呢,相對難度比較大。我們剛才講了,在0.1秒鐘內通過對每位購票者的分析,也就是我們說的準確畫像。但是精準識別票法,要遠遠高于我們現在的識別票法。

    平時的訪問量,我們做了統計,用戶的訪問量,在春節期間,每天是310萬。但是最可怕是爬蟲,跑蟲的訪問量每天是1500億,峰值是每秒鐘170萬。

    我們現在的流立方,現在嘗試每秒40萬億,甚至能做到16臺、24臺均衡上升的。

    為什么說爬蟲?可能大家不是很了解,我跟大家講一下,很多網站的票都是從12306買來的。用爬蟲數據,把好的票留下來,通過爬蟲購票,在10分鐘以內,你沒有付錢的話沒關系,他也可以把票退回去。在網站上,我們沒有訂票,在9分多鐘的時候,把票退回來。在10分鐘以內有人在網站訂票,真實身份證上傳的時候,把這個票馬上退回去給你交易,所以把12306購票網站把整個系統爆了。

    應用前景

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    應用的前景非常的廣泛:金融、電信、交通、公安、海關、互聯網都可以應用。

    體會

    • 流數據的實時處理

    流式數據的實時分析,一定是有規則、模型的東西。復雜的分析計算,加上實時這兩個結合起來,如果能做的好,一定能夠加速大數據在各個行業的應用。

    • 大數據

    我們現在大數據要么就是賣數據,對比數據事后不同的分析來追溯,這個非常重要。

    但是我們現在應用最重要,還是要結合不同的空間數據實施流數據分析。這個要有平臺才能把所有的數據(互聯網、移動互聯網還有互聯網+)共同體驗、提升。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    CNCC 2016 | 浙江大學陳純:何為流式大數據?

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說