成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    金融科技 正文
    發(fā)私信給陳伊莉
    發(fā)送

    0

    專訪庖丁科技羅平:做一把鋒利的刀,切入投研市場

    本文作者: 陳伊莉 2018-05-09 15:09
    導(dǎo)語:據(jù)稱,基于金融文檔結(jié)構(gòu)化技術(shù),庖丁能夠推出更多豐富的應(yīng)用,比如合規(guī)、風(fēng)控,甚至自動撰寫。

    正如公司的名字一樣,庖丁科技也是利用一把鋒利的刀——基于自然語言處理與計算機視覺,實現(xiàn)金融文檔結(jié)構(gòu)化,從而切入金融市場。

    中科院計算所副研究員兼博導(dǎo)、庖丁科技首席科學(xué)家羅平對雷鋒網(wǎng)AI金融評論表示,作為一種應(yīng)用科學(xué),計算機在研究和應(yīng)用階段的目標和工作方式存在差異。“相較而言,實際應(yīng)用可能會耗費更多的人力和工程量。若劃分個百分比,前期研究是20%,應(yīng)用產(chǎn)品化是80%。”而他一貫秉持著從實際需求中挖掘研究內(nèi)容。

    一方面是監(jiān)管機構(gòu)對金融文檔有著真實、準確、完整要求,另一方面則是金融從業(yè)者面臨著繁雜的文檔數(shù)據(jù)處理、審核等困境。針對于此,庖丁科技專注于核心技術(shù)金融文檔結(jié)構(gòu)化的研究與工程化。簡單而言,金融文檔結(jié)構(gòu)化就是提取出金融文檔中的核心信息,轉(zhuǎn)化為可供計算機搜索、比對、分析的結(jié)構(gòu)化數(shù)據(jù)。而關(guān)鍵信息一般藏在兩個地方:一是大量的表格,二是自然語言段落。

    在去年7月雷鋒網(wǎng)承辦的第二屆CCF-GAIR全球人工智能與機器人峰會上,羅平曾為觀眾展示了庖丁科技早期的產(chǎn)品——AutoDoc,主要能夠復(fù)核金融文檔表格及語言中的數(shù)字勾稽關(guān)系。

    如下圖所示,根據(jù)文檔中的表格數(shù)據(jù),機器可自動計算出“2016年主營收入較2015年下降的比例”應(yīng)該為“12.43%”,但文字中的顯示為“11.29%”。

    專訪庖丁科技羅平:做一把鋒利的刀,切入投研市場

    當(dāng)時,羅平還表示,出于教育市場的目的,他們預(yù)先發(fā)布了一版免費的AutoDoc軟件,支持金融文檔中數(shù)據(jù)勾稽關(guān)系的復(fù)核和筆誤修改,復(fù)核重點是數(shù)字,后續(xù)將會增加自動撰寫、智能分析,并增添人名、事件表述等復(fù)核功能。一年后,庖丁迭代了企業(yè)版本,據(jù)稱目前已在券商內(nèi)部測試使用。而那些后續(xù)功能將只在企業(yè)版本中提供。

    除了AutoDoc企業(yè)版本的進展,他們還推出了一個新產(chǎn)品——PDFlux,將PDF電子文檔轉(zhuǎn)換成Excel表格。其中最關(guān)鍵的實現(xiàn)了無邊框表格提取。據(jù)羅平介紹,企業(yè)財報中有一些出于美觀考慮的無線框表格的存在,而一般使用pdf轉(zhuǎn)化器后,表格數(shù)據(jù)會被打亂。通過預(yù)測表格的外框和內(nèi)線,他們最終實現(xiàn)了數(shù)據(jù)提取。

    專訪庖丁科技羅平:做一把鋒利的刀,切入投研市場

    北京銀行年報無邊框表格提取,210頁大約用時7~8分鐘

    獲得數(shù)據(jù)后即可直接拷貝到Excel或者word中使用。這項技術(shù)和產(chǎn)品的價值在哪兒呢?羅平表示,國內(nèi)一些金融數(shù)據(jù)公司實質(zhì)上就是賣數(shù)據(jù)的公司,從上深交所發(fā)布的報告中扒下數(shù)據(jù),通過半自動化加人工的方式,提取報表數(shù)據(jù)。“可能需要好幾百人,而錄入一期財務(wù)報表至少需要3~5小時,而我們只需要幾分鐘。”

    PDFlux也發(fā)布了一個免費版本,當(dāng)前還未對速度進行優(yōu)化。經(jīng)雷鋒網(wǎng)AI金融評論嘗試,北京銀行210頁年報大約處理用時7~8分鐘,杭州銀行15頁的2018一季度報只用了3分鐘。

    當(dāng)然該產(chǎn)品并不包含圖表的識別。羅平解釋說,這是因為相較于表格,圖表的的應(yīng)用價值并不高。“在企業(yè)發(fā)布的業(yè)績報告中,所有的關(guān)鍵信息都在表格中;而圖表可能只有5%及以下,且理解難度也很高,從投入產(chǎn)出來看并不值當(dāng)。”

    據(jù)稱,基于金融文檔結(jié)構(gòu)化技術(shù),庖丁能夠推出更多豐富的應(yīng)用,比如合規(guī)、風(fēng)控,甚至自動撰寫。“坦率說,我們前期的主要工作都放在突破底層關(guān)鍵技術(shù),建立技術(shù)壁壘;有了核心技術(shù),我們會將精力轉(zhuǎn)移到商業(yè)化產(chǎn)品端。 “

    雷鋒網(wǎng)AI金融評論還就公司與行業(yè)發(fā)展與羅平展開了更深入的對話:

    雷鋒網(wǎng)AI金融評論:庖丁的自我定位究竟是怎樣的?曾有一家媒體將庖丁公司歸類到智能投研,而在此之前也看到CEO接受采訪時表示,庖丁對標美國大數(shù)據(jù)公司Palantir,也說“AI公司未來會是新的金融機構(gòu),未來庖丁科技要成為新的資產(chǎn)管理機構(gòu)。”

    羅平:我們是一家金融科技公司,智能投研只是該領(lǐng)域的一部分。另外,我們認為通過技術(shù)未來可以自然地轉(zhuǎn)型成一個新型金融機構(gòu)。換個角度,AutoDoc的目標是減少投行重復(fù)的投入,可能現(xiàn)在投行100個人,利用我們的工具后只需要10個人,也就是說相當(dāng)于這個工具占到90%的工作量。那么從技術(shù)角度切入,未來延伸至業(yè)務(wù)層面,順理成章。當(dāng)然,還需要考慮到監(jiān)管因素。

    雷鋒網(wǎng)AI金融評論:目前庖丁科技發(fā)布的產(chǎn)品實際為投研人員提供了便利。國內(nèi)一些開發(fā)投研工具的公司已經(jīng)不少,有推出企業(yè)知識圖譜、金融搜索引擎等工具,相較起來庖丁科技的切入點更小更聚焦。

    羅平:我明白你的意思,市場存在這樣認知的從業(yè)者不在少數(shù)。但我想說的是,我們所做的金融文檔結(jié)構(gòu)化底層技術(shù)實際上都可以實現(xiàn)這些功能。這些工具說起來還是解決工程化的問題,并沒有什么技術(shù)難度。

    我們能夠看到一些企業(yè)知識圖譜展示,比如列出一家公司的前十大用戶或者供應(yīng)商名單。而事實上,后臺數(shù)據(jù)庫已經(jīng)存儲好了這些信息,相當(dāng)于只是做了數(shù)據(jù)庫查詢,并把查詢的內(nèi)容可視化。

    核心的技術(shù)門檻應(yīng)該在如何實時的構(gòu)建這樣的數(shù)據(jù)庫。也就是說,怎么知道這家公司的上下游公司在哪里?這些信息實際上都存在于披露的金融文檔中,我們需要實時的抽取出來。這就需要自動化的表格理解和自然語言理解技術(shù)。

    雷鋒網(wǎng)AI金融評論:在沒有自動化處理能力或者不成熟之前,同類公司如何為投資者提供足夠多的數(shù)據(jù)?人工?

    羅平:這就千差萬別了。第一類是半自動化+人工實現(xiàn)的,比如萬得。第二類則是通過不正當(dāng)?shù)氖侄沃苯荧@取結(jié)構(gòu)化數(shù)據(jù)。

    雷鋒網(wǎng)AI金融評論:公司的商業(yè)化進展如何?在B端部署時數(shù)據(jù)如何處理?

    羅平:除了C端試用產(chǎn)品,主要目標對象是國內(nèi)券商等金融機構(gòu)和監(jiān)管單位。收費模式包括按次收費或者按軟件收費。我們會到相關(guān)機構(gòu)部署系統(tǒng),數(shù)據(jù)也會存儲在他們內(nèi)部。

    雷鋒網(wǎng)AI金融評論:AutoDoc企業(yè)版本中有自動撰寫功能,該工作的難點是什么?在此之前,我們確實有看到一些機器人自動撰寫的簡短的新聞。

    羅平:大家不要對能夠幫助投行從業(yè)者自動撰寫的功能抱有太高的期望。比如一個IPO的招股書,我覺得自動撰寫的比例會在50%以下,甚至更低。

    我們首先需要明確撰寫的內(nèi)容,目前能夠?qū)崿F(xiàn)的是根據(jù)一張財務(wù)報表的數(shù)字進行自然語言描述,比如今年的指標,同比增長等,或者說可以叫做輔助撰寫。

    但如果出現(xiàn)一個異常增長率,一般監(jiān)管都需要其作出解釋。那么這個原因,不論是開拓的新業(yè)務(wù)或者是政策變化,機器是無法自動生成原因的,仍然需要人工撰寫。

    雷鋒網(wǎng)AI金融評論:“庖丁科技未來的應(yīng)用場景包括監(jiān)管合規(guī),目前的使用者上傳了數(shù)萬份金融市場信息報表。”怎么理解你們的作用,有什么實際應(yīng)用嗎?

    羅平:監(jiān)管有個最基本的需求就是復(fù)核年報或者IPO招股書的數(shù)據(jù)。另外,他們還希望對金融市場做到風(fēng)控管理,也需要公司的底層財務(wù)和業(yè)務(wù)數(shù)據(jù)。金融文檔結(jié)構(gòu)化是一切后續(xù)應(yīng)用的基礎(chǔ)。實際上,我們已經(jīng)與某發(fā)債監(jiān)管單位簽訂了系統(tǒng)合約。

    雷鋒網(wǎng)AI金融評論:那么行業(yè)的競爭壁壘是在哪里?之前看到你接受采訪時談到在于“技術(shù)+金融數(shù)據(jù)理解。”

    羅平:我覺得真正壁壘是如何獲取金融數(shù)據(jù),這是計算機的壁壘,是我們主要做的事情。獲取的速度和精度,將體現(xiàn)出迥然不同的應(yīng)用價值。

    有了底層的金融數(shù)據(jù),需要將金融以及行業(yè)知識融入計算機技術(shù),這才是金融從業(yè)者發(fā)揮價值的廣闊舞臺。我們的策略是,先做計算機的事情;做好之后,金融的事情應(yīng)該是一片藍海。

    雷鋒網(wǎng)AI金融評論:近年來我們能看到許多新金融業(yè)態(tài)監(jiān)管收嚴,比如智能投顧、網(wǎng)貸等,但你們所在的細分領(lǐng)域似乎并沒有太多的監(jiān)管壓力。

    羅平:我們所在的市場比較開放、健康。做監(jiān)管科技,是為了穩(wěn)定、管理金融市場。我覺得這塊市場類似于傳統(tǒng)的安防行業(yè),用AI技術(shù)穩(wěn)定金融市場,或者可以叫“金融安防市場。”

    雷鋒網(wǎng)AI金融評論:關(guān)于行業(yè)現(xiàn)狀,你有感而發(fā)一句“魚龍混雜”,這主要指什么問題?

    羅平:魚龍混雜主要指的是各公司的技術(shù)水平,含金量在于底下的數(shù)據(jù)來源,有些公司甚至?xí)`取他人數(shù)據(jù)。底層數(shù)據(jù)的來源也決定了是否能夠真正構(gòu)建“知識圖譜”,一些所謂的AI公司充其量只是做了數(shù)據(jù)“展示”而已。

    專訪庖丁科技羅平:做一把鋒利的刀,切入投研市場

    相關(guān)文章:

    中科院羅平演講全文:自動撰寫金融文檔如何實現(xiàn),用 AI 解救“金融民工” | CCF-GAIR 2017

    中科院羅平:人工智能在智能投行中的應(yīng)用 | CCF-GAIR 2017

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    分享:
    相關(guān)文章

    編輯

    數(shù)據(jù)漫游天地間。 聯(lián)系可通過上方郵箱或WeChat(請注明身份、姓名、來意,thx)
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說