康夫子張超：“醫(yī)療大腦”是怎樣煉成的？

本文作者：奕欣

2016-08-11 11:39

導(dǎo)語：如果能利用人工智能幫助醫(yī)生在浩如煙海的醫(yī)學(xué)知識里對應(yīng)癥狀和疾病，甚至輔助醫(yī)生決策并對癥下藥，無疑能夠提升醫(yī)療資源的優(yōu)化效率。

如果用上帝視角觀察醫(yī)生的一天，你會發(fā)現(xiàn)醫(yī)生實際上要進(jìn)行不少重復(fù)性勞動。

重復(fù)性勞動可以體現(xiàn)在三個方面：交互、發(fā)現(xiàn)和決策，而這些都可以為機器所勝任：

交互層面：醫(yī)生在問診時和患者的詢問性交互，針對患者的用藥指導(dǎo)、患者追蹤等；
發(fā)現(xiàn)層面：保險審核人員在醫(yī)保單據(jù)審核中的機械重復(fù)性勞動，醫(yī)生對治療方案的校對審核等；
決策層面：醫(yī)生根據(jù)患者的癥狀表現(xiàn)、輔助檢查，給出診斷結(jié)果，根據(jù)診斷結(jié)果給出治療建議等。

整體說來，醫(yī)學(xué)是一門知識驅(qū)動類學(xué)科，只要從多維度收集足夠多、足夠可靠的知識，就能在輔助決策層面發(fā)揮巨大的價值，把醫(yī)療人員從繁雜的重復(fù)性勞動中解放出來，進(jìn)而去做更多有創(chuàng)造性的事。

如果能利用人工智能幫助醫(yī)生在浩如煙海的醫(yī)學(xué)知識里對應(yīng)癥狀和疾病，甚至輔助醫(yī)生決策并對癥下藥，無疑能夠提升醫(yī)療資源的優(yōu)化效率。康夫子CEO張超做的正是這樣一個“醫(yī)療大腦”——利用人工智能技術(shù)，從醫(yī)學(xué)文獻(xiàn)中自動學(xué)習(xí)知識、構(gòu)建知識圖譜、實現(xiàn)知識推理，再將普通公眾對癥狀的描述及疾病的理解準(zhǔn)確地映射在嚴(yán)肅醫(yī)療平面。

康夫子張超：“醫(yī)療大腦”是怎樣煉成的？

wallpaperup

用AI幫用戶整理信息

康夫子張超：“醫(yī)療大腦”是怎樣煉成的？

北京康夫子科技有限公司CEO 張超

張超在百度工作五年，擔(dān)任自然語言處理部資深研發(fā)工程師、文本知識挖掘方向負(fù)責(zé)人。和網(wǎng)民的搜索行為打交道，已經(jīng)成為他工作的常態(tài)。

一次偶然的機會，張超發(fā)現(xiàn)網(wǎng)民對一些醫(yī)療健康類問題往往在百度上會翻看很多頁結(jié)果，但呈現(xiàn)的內(nèi)容實際上良莠不齊。由此，張超產(chǎn)生了利用人工智能代替網(wǎng)民整理頁面的有效信息，以提升用戶體驗的想法。

當(dāng)時張超瞄準(zhǔn)了對營養(yǎng)最為看重的一個群體——孕婦人群來構(gòu)建知識圖譜，推出了一個“飲食記錄分析”的功能。通過孕婦的日常飲食記錄，用戶可以判斷營養(yǎng)攝入是否均衡，進(jìn)而獲取更科學(xué)的膳食指導(dǎo)。

想法很美好，然而在實際操作中收效甚微。張超告訴雷鋒網(wǎng)，在產(chǎn)品上線后，只有不到20%的孕婦會去嘗試去記錄自己的飲食，不到8%的孕婦能連續(xù)記錄1周。

張超由這次創(chuàng)業(yè)中得到了教訓(xùn)：雖然孕婦人群對營養(yǎng)的要求關(guān)注甚高，但在現(xiàn)階段，網(wǎng)民對營養(yǎng)還處于“葉公好龍”的階段。“營養(yǎng)不是剛需，在一定程度上還帶著“反人性”的特征。”

而一些B端公司了解到康夫子在做的知識圖譜，希望能以付費形式來使用他們的服務(wù)。而考慮到相對于“營養(yǎng)”，“醫(yī)療”的痛點更加突出，也讓張超開始想做剛需，想做“我們最擅長的事”。

而這一切，就從優(yōu)化醫(yī)療行為中的重復(fù)性勞動開始。

“醫(yī)療大腦”是怎樣煉成的？

在今年3月份，康夫子開始為B端提供知識和技術(shù)服務(wù)，而它們也從原來的“飲食建議服務(wù)商”轉(zhuǎn)向成為“醫(yī)療人工智能技術(shù)、知識、數(shù)據(jù)提供商”。

知識圖譜在數(shù)據(jù)表現(xiàn)層面由兩部分組成：首先是實體節(jié)點，其次是實體之間的關(guān)系。舉個例子：疾病名、癥狀名、藥品名、化驗指標(biāo)這些數(shù)據(jù)是實體節(jié)點，每個節(jié)點和節(jié)點之間都有一一對應(yīng)的關(guān)系，比如疾病和癥狀的對應(yīng)關(guān)系、某種疾病需要使用什么藥品、疾病需要做哪些化驗等。而在實際的診斷中，還會涉及更多的對應(yīng)關(guān)系。

康大夫在做的知識圖譜，主要就是教會計算機在閱讀海量文本后，自動給出描述某種知識的書寫規(guī)律，并進(jìn)行大規(guī)模的知識自動抽取（Information Extraction）。

數(shù)據(jù)抽取主要分為四步：

1. 數(shù)據(jù)預(yù)處理，比如，數(shù)據(jù)清洗、分詞、專名識別、指代消岐等任務(wù)；
2. 模式學(xué)習(xí)，基于上億條文本，自動去發(fā)現(xiàn)這些文本的書寫規(guī)律；
3. 知識抽取，針對上億條文本，以繼續(xù)學(xué)習(xí)到的模式進(jìn)行二次抽取；
4. 增強學(xué)習(xí)+Bootstrapping，基于一些標(biāo)注數(shù)據(jù)、判斷準(zhǔn)則，不斷重復(fù)第2、3點，并給出準(zhǔn)確率超過99%的結(jié)果數(shù)據(jù)。

有了完善的知識圖譜，還遠(yuǎn)遠(yuǎn)不夠，系統(tǒng)要具備推理能力才能實現(xiàn)智能診斷。在康夫子系統(tǒng)上，這體現(xiàn)在兩個方面，一是知識向量化表示，這一步也是構(gòu)建口語化醫(yī)學(xué)和文獻(xiàn)專業(yè)術(shù)語的橋梁的關(guān)鍵步驟。也就是，將患者描述的通俗語句“翻譯”為專業(yè)術(shù)語（如“抽筋”和“痙攣”的對應(yīng)關(guān)系）；二是判斷多種癥狀綜合下和疾病之間的權(quán)重，配合診斷模型，提升診斷的命中率。

而比起其它知識圖譜的構(gòu)建有所不同的是，醫(yī)學(xué)知識的分散性及無結(jié)構(gòu)化這兩大特性，導(dǎo)致醫(yī)學(xué)圖譜的構(gòu)建更加困難。比如在娛樂領(lǐng)域，從娛樂站點、百科知識就能快速挖掘明星的作品、配偶等知識關(guān)系，但在醫(yī)學(xué)領(lǐng)域，需要閱讀大量權(quán)威文獻(xiàn)后進(jìn)行抽取，才能達(dá)到預(yù)期效果。

再有一點就是邏輯應(yīng)用，醫(yī)生囿于知識壁壘及醫(yī)學(xué)本身的復(fù)雜性，在診斷領(lǐng)域無法面面俱到的情況下，康大夫能夠給予交互，根據(jù)患者的回答情況進(jìn)一步判斷病癥。

康夫子的主要業(yè)務(wù)內(nèi)容主要包括API服務(wù)和臨床輔助決策兩部分。根據(jù)張超的說法，康夫子已經(jīng)完成了對藥物知識圖譜的構(gòu)建，目前覆蓋近30萬種藥物，針對100種常見病的典型癥狀準(zhǔn)確率已超過90%，針對4000種熱門疾病的典型癥狀的命中率也超過80%。

雖然在診斷效果上已經(jīng)超過絕大部分全科醫(yī)生，但康夫子系統(tǒng)仍不能獨立完成診斷。除了倫理因素外，實際場景的診斷復(fù)雜度也使人工智能技術(shù)目前只能針對特定任務(wù)進(jìn)行處理。這也讓張超堅定了服務(wù)于B端的想法，“我們不直接服務(wù)與患者，但是患者可以通過我們的B端合作伙伴獲取服務(wù)。”

在張超的理解中，作為一門60年的學(xué)科，針對特定任務(wù)的人工智能應(yīng)用在未來3-5年會融入到每個人的生活當(dāng)中。而以自動駕駛、圍棋為代表的邏輯驅(qū)動，和以醫(yī)療為代表的知識驅(qū)動就是人工智能的兩個“引擎”。當(dāng)然，除了在智能診斷領(lǐng)域繼續(xù)完善知識圖譜外，張超同樣希望以知識為動力的醫(yī)療智能化能在邏輯層面更好地服務(wù)人類，比如虛擬助手、藥物挖掘、智能診斷方案等，讓醫(yī)生真正從繁雜的勞動中解放出來。

雷穿戴是雷鋒網(wǎng)旗下公眾號，關(guān)注運動健康方面的產(chǎn)品和技術(shù)。如果你想聊聊自己的創(chuàng)業(yè)故事，可加小編微信417423625，或發(fā)郵件至 guoyixin@leiphone.com。

康夫子張超：“醫(yī)療大腦”是怎樣煉成的？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章