成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    醫療AI 正文
    發私信給劉海濤
    發送

    0

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    導語:在WaveNano取得了成就之后,高欣教授并不是很滿意,為什么?

    “接下來,生物計算將成為百度重點發力的關鍵領域之一,在這一賽道的投入上,百度只有盡力,沒有盡頭。“

    這是近期,李彥宏在首屆生物計算大會上的一段豪言壯語。

    如今隨著像百度、字節跳動、華為這些科技大廠的高調加注,以及各個VC接連不斷的注資,與生物計算密切相關的AI新藥無疑已經成為關注度最高的創業賽道。

    近日,雷鋒網《醫健AI掘金志》以“AI制藥·下一個現象級賽道”為主題,邀請百圖生科、劑泰醫藥、未知君、望石智慧、英矽智能、星藥科技,六家先鋒企業,舉辦了一場線上論壇分享。

    作為此次論壇的開場報告嘉賓,百圖生科科學顧問、沙特阿卜杜拉國王科技大學教授,高欣以《更精準的生物醫學及基因組學》為題,進行了演講。

    高欣教授的團隊從“靶點發現”方向出發,開展了一系列納米孔測序相關工作,并應用深度學習算法,開發了一款全新cwDTW算法“WaveNano”,該算法直接解決了困擾生物學家的納米孔測序儀錯誤率較高問題,并在國際頂級生物信息學會議ECCB發表。

    作為一個計算機學家,高欣的算法研發沒有止步于WaveNano,做出以上研究之后,他開始反問自己:1.自己有沒有可能得到更可控、質量更好的標注數據訓練監督式學習模型?2.自己有沒有可能大幅提高DTW算法時間復雜度?

    這些問題也在日后的研究中逐步被優化和改進。

    以下是演講全部內容,雷鋒網做了不改變原意的整理和編輯:

    大家晚上好,我是高欣,很高興跟大家進行分享。今天的題目是“更精準的生物醫學及基因組學”。

    大家知道藥物發現是一個極其漫長且昂貴的過程。一個藥物平均從最初研發到上市,需要15~20年時間,耗資超過20億美元。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    這一漫長流程由多個步驟組成的,從最開始靶點識別,到先導化合物發現、先導化合物優化、臨床前動物實驗、多期臨床實驗。

    整個流程當中,任何一個步驟出現失敗,都導致整個流程以失敗而告終,整個藥物發現流程成功率非常之低,只有不到5%。

    如果對當中各個步驟統計會發現,每一個步驟的失敗率都在隨時間變化而逐年增高。

    而且在這些步驟中,晚期發現失敗消耗的代價,要遠遠大于早期失敗。因此,早期步驟成功率在整個流程至關重要。

    今天跟大家分享的題目,就主要集中在藥物發現第一步“靶點識別”。

    長讀長測序:基因組數據的抽提利器

    我想談的是,如何通過第三代測序技術,更快、更準確得到基因組數據,得到基因組數據之后,如何更好解讀基因組數據,以求發現更好的藥物靶點。

    這個系列云峰會講座當中,后續speaker還會給大家分享不同步驟以及整體流程上一些振奮人心的工作。

    今天我主要集中在第一步,介紹我的課題組工作,即時DNA測序方面成果。

    現代醫學大多都是基于基因組診斷,人共有30億對堿基,這些堿基都是非常長的基因組序列。

    大家可以把它理解成一本非常厚的字典,每個人都有一個模板。抄寫這本字典的時候,就無法避免犯一些錯誤,例如插入、刪除、錯別字等等。

    絕大部分錯誤不會導致嚴重后果,但如果在一些關鍵位置抄寫錯誤,就會導致罕見遺傳疾病。基因組診斷就是要把這些抄寫錯誤和罕見遺傳疾病相互關聯起來,做到這一點,就要知道錯誤發生地點。

    因為生物技術所限,我們沒有辦法通讀整個字典,只能把字典拆分成一頁一頁,或一段一段分別解讀,最后整合起來。

    這是一件非常難的任務,就好像是很出名的變形藝術—metamorphosis。

    基于這種metamorphosis變形藝術設計拼圖游戲,就會發現拼圖游戲非常難,因為所有piece都高度相似,沒有任何兩塊完全一致。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    因此,大家想出各種辦法克服技術上難點,其中一個直觀辦法就是把拼圖塊從小塊變成大塊,所謂長讀長DNA測序。

    長讀長DNA測序,主要有兩種技術:PacBio和納米孔。

    納米孔相對于其它測序技術來說,主要有幾大優勢:

    第一,便攜性,納米孔測序儀大小只有手機一半大小,理論上可以在世界任何時間、任何地點,提供及時檢測,也就是point of care;

    第二,測序長度非常長,可以讀長有大約10k到100k這么長,相對于二代測序100~200bp長度,已經是很長的讀長長度,因此可以很好處理大結構變異,以及DNA中的repeat;

    第三,納米孔測序不需要進行PCR擴增。

    既然有好的地方,就一定有壞的地方,納米孔有這么多技術上優勢,主要劣勢就是測序精度。

    例如R9 Flowcell,測序精度只有85%左右;即使最新R10,官方精度也只有95%左右,相比于二代測序99%精度,這個確實非常低。

    數據處理:納米孔測序的長期瓶頸

    測序精度低除了設備上局限性,納米孔數據分析也是非常難的任務。

    在此,我簡單介紹一下納米孔工作原理,納米孔當中有一個膜,膜上有一些穿膜蛋白,即membrane protein。

    單鏈DNA會被蛋白酶拽著通過膜蛋白,在任何一個時間點膜蛋白當中大約有5到6個堿基,所以可以假設是一個5mer總共會有45,大約1024種不同5mer。

    由于5mer組合不同,形狀不同,對孔阻塞程度也不一樣,因此,當膜兩端加上電壓再去測一個時間點有多少電流能通過時,就會發現不同5mer在孔中的電流值不一樣。

    而且納米孔測序儀測出的原始數據是離散時間序列電流值。我們想做的是解碼,把離散時間序列電流值解碼成ACGTDNA讀長。

    對于計算機同學來說,解碼是一個非常經典的任務,有很多現成算法,但納米孔解碼和傳統解碼完全不同,主要有幾大技術難點:

    第一,電流測量范圍小。1024種不同5mer,它們之間平均誤差已經小于電流之間測量誤差,直接做解碼,就會有很多不確定性。

    第二,DNA序列并不勻速通過,有的時候很快,有的時候很慢。但電流是以恒定頻率被測量,因此在電流中,有的5mer會被測兩次,有的5mer會被測200次,平均一個5mer大約被測10次左右。

    從離散時間序列角度來說,并不知道任何一個時間點是在測上一個時間點5mer,還是下一個5mer。

    第三,信號聯配困難,DNA讀長大約有1萬到10萬這么長,原始電信號長度又是DNA讀長10倍左右,也就是10萬到100萬這么長。

    如果把兩個序列進行聯配,最標準算法就是動態規劃,這是一個平方時間和空間復雜度算法,這么長序列里,這種算法時間復雜度同樣也沒有辦法接受。

    納米孔測序數據分析是一個非常難的任務,我的課題組過去三年里,已經研發端到端計算平臺用于處理納米孔測序數據分析等關鍵問題。

    WaveNano:納米孔測序的解碼框架

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    現在給大家做個簡單介紹:就是把特定離散時間序列電信號解碼成一個DNA讀長,最終設計成一個基于監督式學習的解碼問題。

    這是我們三年前設計的一個深度學習框架“WaveNano”,當中深度學習單元主要采用wave net單元,也就是聲波網絡相關單元想法結合wave net和殘差網絡,從上游到下游分別提取序列中信息,并把信息整合起來。

    接下來訓練一個監督式學習模型,預測任何一個時間點的上下標簽。

    第一個標簽是時間點,和上一個時間點對比,究竟是同一5mer,還是變成下一個5mer。

    第二個標簽是分類,任何一個時間點測量5mer屬于1024種中的哪一類。

    預測完兩種標簽概率之后,我們就可以通過概率引導Viterbi解碼算法,解碼出DNA讀長序列,整個流程最重要的就是“如何為監督式學習準備訓練數據”。

    雖然可以從公共數據集拿到很多配對原始電信號和DNA讀長信息,但如果想做監督式學習,就需要知道這些原始電信號的任何一個時間點二類標簽和1024類內容。

    但原始電信號序列非常長,沒有人會手工標注這些標簽,只能自己進行數據標注,找到原始電信號和DNA讀長之間最優聯配。

    這種問題,一般通過動態時間規整算法—“dynamic time warping”就可以解決。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    大家可以把它理解成動態規劃的變種,動態規劃沒有空位罰分(Gap Penalty) 的情況下的變種。因為它的電流序列長度是DNA序列長度10倍,因此一旦gap penalty,gap penalty就會占據主導位置,最后聯配不會好,因此就需要采用沒有罰分項動態規劃變種,就是DTW算法。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    簡單給大家展示一下DTW算法性能,和官方base calling、Metrichor和Albacore等方法進行對比。

    因為其它兩個程序并不開源,不知道訓練數據情況,這個比較可能還不公平,尚且無法斷言,我們的算法base calling要比官方的好。但從這個表格至少可以發現,WaveNano工具非常不錯。

    問題溯源:兩大思路繼續精細化

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    但我對WaveNano其實并不滿意,為什么?

    首先,我更感興趣的是現有問題,是為挑戰性問題量身打造的新算法,不是簡單應用市面上已有深度學習框架。

    其次,這個問題還有兩個限制:

    第一個限制,訓練數據準確度不可控。對于監督式學習模型,如果訓練數據質量不好,或標注不好,最終無論算法多么強大,訓練出的模型一定不好。

    而剛才訓練的模型,都是自己聯配得來的訓練數據,完全不知道離真正ground truth相差多遠。

    第二個限制,運算速度比較慢。對原始電信號序列和DNA讀長序列進行聯配的時候,DTW還是一個平方時間復雜度算法,對于序列聯配的速率還比較慢。

    因此,做出這些研究之后,作為一個計算機學家,我問了自己兩個問題:

    1.自己有沒有可能得到更可控、質量更好的標注數據,用于訓練監督式學習模型?

    2.自己有沒有可能大幅提高 DTW算法時間復雜度?

    接下來,介紹一下兩個問題的解決方式:

    其實深度學習經常會出現數據量不夠,或者標注數據量不夠的情況。

    這種情況下,大家經常會使用模擬器,例如Alpha Go就大量使用模擬器模擬非常多的圍棋對弈。

    納米孔訓練上,我也想到了模擬器想法,雖然在此之前已經有若干納米孔模擬器,但這些模擬都是DNA讀長,沒有任何人能夠模擬原始電信號序列。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    因此在三年前,我們提出了一個想法—Deep simulator,它可以模擬納米孔測序整個流程。

    首先,主要通過給定基因組,隨機把它打成一些DNA讀長,并且保證這些DNA讀長分布和真實數據讀長分布保持一致。

    其次,對于這些隨機生成讀長的每一個DNA,還要隨機生成它的原始電信號序列,最后用base caller,從原始電信號序列把DNA讀長給呼叫回來。

    因為自己的base caller并不完美,所以call回來的DNA讀長并不完美,自然會引入一些插入刪除,以及一些variation。

    但最終模擬器還是為業內人士提供大量訓練數據,用于訓練他們的解碼器,被大家使用的頻率非常多。

    所以去年,我們又提出模擬器1.5版本。這里簡單介紹一下其中的技術細節。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    第一步,生成和實際數據讀長長度分布一致的讀長長度,為了達到這個目的,就需要對實際數據進行讀長分布總結。

    我們發現,實際納米孔測序數據基本服從三個分布:指數分布、β分布和兩個γ混合分布。

    我們分別對三個分布進行參數估計,然后把選擇權留給用戶,用戶選擇按照哪一種分布去進行生成,最終發現生成的數據讀長分布,和實際真實分布非常類似。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    第二步,對隨機產生的DNA讀長生成原始電信號序列。為了這件事,我們又提出了新模型—深度典型事件規整(deep canonical time warping)。

    它的想法是基于DNA讀長和原始電信號,分別加入兩個深度學習網絡作為特征提取器,提取出來兩個特征序列。

    如果讀長和原始電信號序列是對應的,那這兩個提取出來的特征序列就應該最大程度耦合到一起,因此采用典型相關分析值作為損失函數,會逼著我們深度學習框架,學到更好的特征提取。百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    在模型訓練過程中,我們可能需要訓練整個網絡,但測試階段只需要使用其中部分,也就是從一個讀長生成原始電信號序列。

    因為每一個5mer都會平均被測到10次,所以還要對每一個真實5mer重復測量次數進行統計,統計匹配分布,使得數據5mer重復測量次數和真實數據達成一致。

    我們分別在4個物種上進行了模擬器訓練和測試。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    簡單給大家展示一下結果,通過這個圖里所有對角線之的點,大家可以看到模擬器要遠遠好于現在市面上現有模擬器。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    回到第二個問題,也就是如何更快進行DNA讀長和原始電信號序列聯配。

    大家已經知道,原始電信號序列長度是DNA讀長10倍,而DNA讀長長度是1萬-10萬,原始電信號讀長就是10萬-100萬。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    盡管有非常多DTW算法變種已經被前人所發現,但所有這些方法都無法處理這么長、尺度相差這么大的兩個序列聯配。

    基于motivation,我們提出了一種新算法—連續小波變換DTW,也就是CWDTW,它整合了三種不同idea,第一分層動態規整,第二粗化動態規整,第三受限動態規整。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    在這里我列舉一個案例,如果想對兩個原始序列進行聯配,但兩個序列都特別長,沒有辦法直接聯配,就需要通過連續小波變換把信號進行壓縮和特征提取。

    因為連續小波變換,在原始電信號特征提取層面已經被證明具有很強優勢,所以通過連續小波變換,可以讓原來序列長度變得非常短。

    在短序列維度上,就可以進行最優DTW算法,找到聯配路徑,而其還可以從粗化連續小波變換維度,找到更細化維度,隨后序列就會變長,同時還會把找到的聯配路徑,投影到更細化的分辨率上。

    在投影過程當中,我的聯配路徑一定不會是最優,但假設聯配路徑是一個很好的出發點,假設成一個更好聯配路徑。

    在這個路徑的鄰距范圍,假設一個窗口大小,讓算法這個窗口范圍內找到更好的聯配路徑。

    當然窗口大小也是算法重要參數之一,隨著找到更好的聯配路徑,就可以把它再映射到更高分辨率維度上,隨著整個過程的不斷循環,就可以獲取到最原始的維度。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    這張圖,比較了該算法和現有DTW算法性能差異,對角線上就是最優解,離對角線越近,說明找出來的聯配路徑離真實聯配路徑就越近。

    大家看到紅點就是FAST DTW,它離真實聯配路徑非常遠,CWDTW基本上都能找到最優聯配路徑幾乎一致的路徑。

    從時間上來講一個CPU核上聯配一對需要花費時間為0.31秒;而FAST DTW需要136秒,原始DTW需要916秒,也就是說在單核上,CWDTW把原始DTW提速了3000倍,把FAST DTW提速了400倍。

    疾病嵌入:從基因數據到疾病表征

    剛才介紹了通過AI方法以及高效算法,研發端到端即時DNA測序平臺,我們不但要測DNA序列,還要解讀DNA序列,以求發現更好的藥物靶點。

    在這方面,我們也做了很多工作,例如有了DNA序列之后,怎樣發現每一個樣本突變,怎么把它和疾病建立準確的關系。

    為此,我們兩年前提出了一個想法—“疾病的嵌入。”通過1.5億美國人健康保險數據,把人類600多種所有疾病同時投影、嵌入到一個高維連續空間內。

    這種嵌入一旦完成,就不需要再把疾病名字當成離散名詞來使用,例如糖尿病、肝癌,大家不知道兩個病之間關系是什么,更不存在定量關系。

    疾病嵌入之后,每一個疾病都變成20維連續空間的一個向量,不但可以談論疾病之間相似性,還可以談論疾病之間不同點。

    而且過去一個人同時得了多種疾病,也知道如何去表達,通過疾病嵌入只需要把這幾種疾病向量相加到一起,或者加權到一起,就可以代表病人的disease tree。

    有了疾病嵌入連續表征之后,我們還可以把之前所有跟疾病相關study都重新做一遍,因為不再需要對每一種疾病單獨建模,通過對人類600多種疾病進行分析和建模,可以極大提高統計power。百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    這是我們兩年前的工作,證明當疾病嵌入空間向量為特征時候,可以在任何一個地方,例如丹麥、瑞典這種基因組學數據上估算遺傳學參數。

    此外,我們還從疾病的發病年齡中就發現,不同疾病的發病年齡有很強的模式,基本可以聚成5種不同類型疾病種類。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    除了這些,疾病嵌入空間還可以重新做之前的基因組關聯,也就是GWAS,同時對人類600種疾病進行基因關聯。

    我們在英國UK Biobank上,通過疾病嵌入特征空間,跟基因組突變空間進行新關聯,就發現了116種非常強的關聯信號。

    這在之前GWAS研究都沒有發現。而這116種強烈關聯信號,很有可能作為新疾病藥物靶點,同樣的想法還可以應用到多模態同時嵌入,就是除了嵌入疾病還可以做藥物和疾病關聯嵌入。

    這樣疾病可以作為正則項來影響藥物嵌入,反過來藥物也可以作為正則項來影響疾病嵌入,不但可以嵌入疾病和藥物,還可以嵌入他們之間的關系,更好發現新靶點,以及疾病潛在藥物。

    深度解碼:罕見遺傳病的隱性秘密

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    有了基因組之后,還可以找一些更隱性、更深的致病突變。例如孟德爾疾病就是由某一突變或某一基因突變造成,這是人類了解最多的疾病。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    臨床上為這類病人 order全外顯子或者全基因組測序,最后測序回來report,最終成功率只有25%~50%以內。

    對這么簡單病因疾病,我們都沒有辦法進行全面診斷,主要原因在于很多突變都非常深層,是隱性突變,并不直接作用于編碼蛋白,或基因組層面,而是轉錄組層面。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    例如,它可能引發某些異常轉錄本出現,或者正常轉錄本異常表達量等情況出現,這種信號往往會由于人體NMD機制,變得非常微弱。

    因此,如果想從序列測序數據中發現這種異常轉錄本,或者正常轉錄本異常表達,就需要敏感度非常高的算法。

    我們也研發了一些基于轉錄本的疾病診斷方法,通過跟沙特臨床醫生合作,診斷之前懸而未解的罕見遺傳疾病。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    例如去年我們第一個study就診斷了一個小頭侏儒癥個體,這個人有腦白質疏松以及智力發育遲緩,最終發現,他在基因區間有一個38bp大小的deletion。

    我們第二個study也研究了4個不同family,這4個家族同時具有發育遲緩、小頭侏儒癥以及面部畸形,在他們SMG8基因當中,發現一個非常deep的致病突變。

    除此之外,還有另一種解讀基因組方式,通過理解regulatory code(調控代碼),由于基因組里有非常多調控元件,即使在編碼區域,也有幾種最常見的調控機理,從起始出發,由轉錄起始位點調控;從結尾出發,由多聚腺苷酸加尾,也就是polyA。

    如果只盯著最淺顯方式,也許有幾十個方式,但現在所有方法都沒有辦法對任意PolyA位點進行同時建模。

    所以,我們從去年提出了DeeReCT工具,它結合了CNN和RNN的優點,從而得到自適應模型,對任意PolyA位點進行同時建模,以model這些位點之間競爭性。

    百圖生科科學顧問高欣:自我否定、二次創新,我為納米孔測序提供了更可靠的AI工具 | 萬字長文

    我們把目光集中在多聚腺苷酸加尾,還研究了轉錄起始位點—TSS,研發了第一個基于深度學習的轉錄起始位點預測程序—Direct PeomID。

    該方法與之前所有轉錄起始位點預測程序相比,除了采用深度學習框架,最大區別就是在比較平衡的正負數據集上的二分類問題。

    當把這些訓練好模型應用到全基因組掃描時,就會發現他們的假陽性率非常高,甚至高到無法實際使用,而這種循環迭代負樣本增強想法,能夠非常有效降低全基因組掃描假陽性率。

    目前為止,Direct PeomID還是唯一一個可以在全基因組層面預測轉錄起始位點的工具。除此之外,我們還做了各種后續工具,這些都是沿著調節代碼方向來操作。

    最后替百圖生科打一個廣告,百圖生科是在李彥宏和劉維帶領下的干濕技術結合的造藥新勢力,干技術就是AI;濕技術就是生物技術。通過形成AI賦能的干濕結合大閉環,希望能夠從全新角度為人類藥物設計研發,做出一些突破性貢獻,我們還希望更多有識之士能夠加入。

    問答環節

    Q1:目前 AI新藥研發有沒有已經研發出的藥物以及應用的案例?

    高欣:這里如果把已經研發出來定義為獲批上市,據我所知,目前AI研發的新藥還沒有獲批上市的先例。

    但已經有非常多AI研發或AI輔助研發藥物在各期、不同臨床實驗當中。

    此外,新藥和研發這兩個詞,還有著不同的解讀。

    第一種解讀,是為已知靶點,尋找之前不知道的化合物或藥物分子。

    第二種,是為已知藥找新適應癥,也就是老藥新用。

    第三種,是完全從0開始,設計之前沒有的小分子或大分子藥物。

    事實上,各種不同解讀情況當中,AI已經做出非常喜人的成果和進展。

    例如從零開始藥物設計上,就有非常出名的案例,MIT的James Collins lab就研發了一種從0開始的抗生素藥物設計。

    這種抗生素,在試驗中已經展現出非常好的抗細菌效果,能夠殺死一些已知抗生素沒有辦法清除的細菌。

    此外,其它藥物也有各種各樣例子,國外制藥企業和國內AI藥物研發企業都有藥物在臨床實驗當中。

    Q2:AI藥物研發的原始數據獲取來源都有哪些?

    高欣:這要回歸到 AI藥物研發根本,這是一個系統性學科,需要涉及到生物醫療的方方面面。

    如果大家想從整體、完整角度去做AI藥物研發,就需要獲取方方面面所有原始數據來源。例如序列、組學、影像學、臨床數據、生物技術數據、文本數據、三維結構數據等等,所有數據都會對最后平臺成功性做出一定貢獻。

    Q3:NLP(自然語言處理)對于AI藥物研發的用處有哪些?

    高欣:NLP是深度學習最成功應用的兩大領域之一。所謂AI藥物研發,很大程度是指深度學習賦能藥物研發。也就是NLP在AI藥物研發過程當中占到至關重要的作用。

    這里給大家列舉兩個經典案例:

    第一, NLP被大量地用于知識圖譜研發。

    第二, NLP被大量用于各種各樣蛋白質分子或DNA分子模型預訓練,這些預訓練模型被證明能夠非常有效提取生物分子特征,并且服務各種下游。

    例如AlphaFold2,應該就是基于某種蛋白質預訓練模型,或protein的transformers,所以NLP技術在AI藥物研發用處非常大。

    Q4:百圖生科的研發中是否用到藥物研發知識圖譜,規模有多大,數據源哪些,質量如何保證及評估。

    高欣:這是非常好的問題。藥物研發知識圖譜取決于靶向疾病、靶向靶點,或者藥物搜索空間到底有多大,它會有相應規模,這種知識圖譜質量應該如何評估?

    首先盡量確保數據和信息準確,一個是數據源是否可靠,再就是數據源手工校準,或者各種各樣清洗、預處理是否合理,最后,還要看下游預測結果是否和先驗知識吻合。

    Q5:藥物研發過程中,除了發現新的適應癥,如何進行臨床療效評價?

    高欣:藥物進入臨床療效評價已經是非常后期的任務。

    如果這個時候藥物被證明副作用較大,或者體內不起效,損失的時間以及代價就非常大,所以在臨床療效評價之前,應該盡量確保藥物被很好測試。

    這些測試有各種各樣方法,有統計學相關、文本挖掘、先驗知識印證相關。

    最后就是臨床前實驗,例如在濕實驗室進行實驗,或者在IPS細胞當中進行實驗,或者類器官當中進行實驗,或者是動物實驗。

    無論如何,大家都希望在代價不可挽回的時間點前,將這些藥物的問題盡早發現出來并盡早進行挽救。

    Q6:AI發現新適應癥有幾種方法?各自的優缺點是什么?

    高欣:這是一種非常泛的問題,AI發現新適應癥,就是一個非常大的問題,基本能想到的所有方法都可以被應用這個領域。

    例如基于知識圖譜方法、基于三維結構方法,基于多組學分析的方法,基于分子動力學模擬的方法,很難準確界定AI發現新適應癥有幾種方法。

    Q7:在算法設計過程中,應如何與藥學家進行合作,用先驗知識指導算法設計,從而使算法效率更高、結果更加安全科學?

    高欣:這是一個非常好的問題,涉及所有交叉領域。不光是與藥學家合作,與地質學家合作、生物學家合作、植物學家合作、海洋學家合作、化學家合作等等都將面臨這個問題。

    這個問題最好要找到互相之間的共同語言、尊重對方專業、認可對方專業、對自己專業重要程度有良好認識合作者,然后與這些合作者進行密切的、閉環式交流與合作,有反饋合作才是成功代表。

    如果只是單純輸出給另一方,沒有反饋,那么這種合作注定不會成功,也不會安全。

    在AI制藥中就是指藥學家的先驗知識到底是什么,并且把他的先驗知識給進行結構化,進行政策化。

    把他的先驗知識很好融合到數學模型和AI模型當中,然后再用預測結果去提供給藥學家,讓它進行甄別,讓他給更下一步反饋意見,進行所謂的強化學習,

    往返的閉環,才能使算法效率更高,結果更加安全和科學。

    Q8:AI藥物研發所用到的外部計算軟件哪些是主流?還是自己開發計算軟件?

    高欣:這同樣是個好問題,涉及到很多做生物信息或者計算生物學的人。

    大家知道計算生物學和生物信息的科學家們,本身并不開發新計算軟件,但他們熟知現有所有軟件、包、庫。

    如果他們拿到新數據和新問題,可以非常熟練把現有方法應用到問題上,然后選擇表現性能最好方法。

    此外,還有另一類生物信息學家,他們并不滿足于這種現有方法,而是希望測試所有現有方法,當現有方法能夠很好解決這些問題的時候,他們才不再研發新方法。

    否則他們會總結現有方法的優缺點,然后有的放矢地設計和開發自己的計算軟件,針對性地解決問題,而且能夠overcome這些現有外部計算方法共同約束和限制。

    目前,兩種不同類型的研發和科研理念,都有非常成功的例子,沒有一概而論的答案。

    Q9:AI開發的候選藥,比傳統方法開發臨床實驗成功率會有多大提升?

    高欣:具體有多大提升,取決于具體例子,也是一個case-by-case的答案。

    傳統方法的改進空間實在太大,傳統意義上,藥廠開發新藥需要15~20年時間,超過20億美元代價,而失敗率超過95%,成功率還在逐年下跌,所以即使把5%成功率提高到10%,也是巨大的進步和飛躍。

    對于某些疾病、某些靶點,可能把5%提高到30%,有些則可以把5%提高到10%。無論如何都是一個非常好的進展。

    大家隨便上網就會發現,國內AI藥企,已經可以把新藥研發周期縮短到12~18個月,開發費用縮小到百萬美元量級,這已經是飛躍式的進展。如果最后臨床實驗證明安全有效,這些藥物可以獲批上市將是一個非常好的應用案例。

    Q10:目前AI藥物研發是否主要基于分子結構?基于基因組數據的Ai藥物研發,當前研究進展和未來發展如何?

    高欣:首先,基于分子結構,只是非常多元信息當中的一員而已。那么主要基于分子結構的這種藥物研發,例如薛定諤,他們可能是主要基于分子結構來進行AI藥物研發。

    但很多其他公司,完全是基于基因組數據,或者主要基于基因組數據來進行藥物研發,例如加拿大DeepGenomics,他們都是基于大規模組學數據,影像數據進行AI藥物研發。

    Q11:AI藥物研發的后續開發路徑,后續可能形成的商業化的形式是什么?與big pharma 合作更多的在藥物方面深入,還是受到藥企的委托去做外包服務的方式? 感覺會往either 是一個藥企 or 一個CRO公司方向發展?

    高欣:這是和商業計劃有關問題,對于集中在某一個局部痛點的AI藥物研發公司來說,它們主要商業模式可能是與藥企進行密切合作,為藥企某一步或整個平臺進行賦能。

    而百圖生科希望的就是和這些AI藥物研發公司形成互補,一同做風險更高、未來期待收益更高大規模端到端內部閉環藥物開發模式。

    這不光是某些AI算法調參或局部優化,更希望有一個端到端的AI工程化和AI智能化研發,同時賦予in house生物技術以及高通量生物數據,形成內部資產閉環。

    最后感謝大家提出這些非常有建設性的問題,希望下次還有機會交流。雷鋒網雷鋒網

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章

    編輯

    專注AI醫療的新勢力和投融資丨微信ID:Daniel-six
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說