7

致力于為用戶自動生成可讀性文本的敘述科學公司(Narrative Science),12月1日宣布已完成1000萬美元D輪融資。至此,該公司6輪募資總額已增至3240萬美元。
說到NS,有必要提及Automated Insights公司,兩家公司在做同一件事:重塑文字內容的生產模式。一家是預言機器人記者可能在5年內贏得普利策新聞獎,一家是計劃今年利用機器人寫作生產出10億篇文章。加之以前出現的電腦寫小說、識圖題詩等話題,文字內容生產的“自動化”模式是否已經到來?
機器“自助”創作如何可能?
想象一下,只要提供零碎的部分信息,然后摁下一個按鈕,就能在3分鐘內完成一篇新聞報道。
實際上,諸如Automated Insights的Wordsmith平臺和Narrative Science的自動撰寫新聞系統,完成創作的流程大致接近:借助系統各種內設語言建立起的業務算法,分析出提供給系統的數據的特點和內容,通過計算機程序將數據融入預設的結構化語言(或稱為模板)中,生成敘述性的長短文章、報表、可視化圖形等。基于信息數據本身及模板數據,算法會決定每篇報道的選題、語氣、語調和寫作形式。
從這個角度來說,“自動化寫作”的說法可能有些嘩眾取寵。這是一種相對規律性和重復性的工作,而這些基本動作,結合目前的數學算法能力和大數據在統計學方面的應用,是完全可以形成自動化,或者至少是半自動化的,也就是本文所強調的機器創作的“自助”模式:機器基于內設算法而針對特定數據進行標準分析的前期基礎篩選和整理。
以機器自助創作滲透較深的體育報道為例,因為體育涉及大量波動性很強的數據,技術工程師在系統內嵌每種賽事或活動的算法模式和預測規則,實現對相應數據的識別,如比賽結果是哪個球隊勝出?是驚險取勝還是大比分屠殺?是否有VIP級別的球員表現?或根據比賽已知數據和其他數據庫進行推測:是否某一次進攻(防守)有定勝負的作用?此基礎上,參照相應的文章模板,如某知名人物的或流行的寫作用詞習慣,進而完成創作。
機器“自助”創作將帶來什么?
如若某日自動化寫作果真成型,必然會是一場涉及到文字作為人類信息載體和傳遞媒介的根本變革。而機器“自助”創作基于大數據收集、整理、分析,進而挖掘數據背后的關聯和意義,并采用商業化的書面語言撰寫新聞,確實會對傳統的內容生產模式產生深刻的影響。
顛覆與解放并存,機器“自助”創作面前,傳統內容生產方面幾家歡喜幾家愁?
我們回避不了這樣一個事實:我們的日常生活活動,正越來越多被轉化為海量數據,移動互聯網帶來的用戶數據膨脹、體育競技的精細化催生的數據收集系統擴張,不少情況下,新聞報道的取材就來自于這些數據當中,如體育比賽場地增加的高分辨率攝像頭和高強度傳感器,目的是分析每場比賽中各位球員的表現情況,而這些內容的生產對僅依靠肉體之軀的記者是難以滿足需要。互聯網所產生數據的規模可謂前所未有,Narrative Science能夠將這些數據轉化成文章。這就是Narrative Science必須存在的理由。
從另一角度講,計算機算法必須同實際的內容生產者協手合作、發揮出各自的優勢,才能成行。
計算機的優勢在于記憶無差錯,并能夠快速訪問和“計算”各類數據,但機器卻無法思考,只能在特定的數據中根據設定的模式完成數據整理工作,對數據的挖掘、新聞價值的發現,仍需專業的實際內容生產者去完成。只有更深入地加強計算機在機器學習、數據處理等表現,進而更為準確理解人類語言和文字,計算機的“敘事”技巧才能更多地被采用。
而實際的內容生產者在生產內容過程中,如何從數據中揭示出有價值的信息,發現數據中潛在的價值,既需要投入更多的心思對機器進行“培訓”,以實現從繁重中解放出來;更需要調動多方面的知識和能力,做深入的報告和專題分析。
機器無法撰寫具有創新性的新聞,其新聞報道只能根據現成的模式進行再造。這種現成的模式是根據傳統新聞記者的報道風格和特定題材新聞報道的模式生成的,離開這一點,機器就失去了再造的參照物。因此,無論數據背后的意義挖掘還是數據新聞報道的模式和風格,都離不開傳統內容生產的專業積淀和報道方式創新,所謂“自動化寫作”只是一種被抽象化夸大的預言,但在機器“自助”創作面前,傳統的內容生產者在面對巨量信息分析整理和意義挖掘中,確實面臨著所需知識結構和報道水平的全方位提升的考驗。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。