百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

本文作者：劉海濤

2021-05-27 18:07

專題：AI新藥研發未來獨角獸云峰會

導語：在WaveNano取得了成就之后，高欣教授并不是很滿意，為什么？

“接下來，生物計算將成為百度重點發力的關鍵領域之一，在這一賽道的投入上，百度只有盡力，沒有盡頭。“

這是近期，李彥宏在首屆生物計算大會上的一段豪言壯語。

如今隨著像百度、字節跳動、華為這些科技大廠的高調加注，以及各個VC接連不斷的注資，與生物計算密切相關的AI新藥無疑已經成為關注度最高的創業賽道。

近日，雷鋒網《醫健AI掘金志》以“AI制藥·下一個現象級賽道”為主題，邀請百圖生科、劑泰醫藥、未知君、望石智慧、英矽智能、星藥科技，六家先鋒企業，舉辦了一場線上論壇分享。

作為此次論壇的開場報告嘉賓，百圖生科科學顧問、沙特阿卜杜拉國王科技大學教授，高欣以《更精準的生物醫學及基因組學》為題，進行了演講。

高欣教授的團隊從“靶點發現”方向出發，開展了一系列納米孔測序相關工作，并應用深度學習算法，開發了一款全新cwDTW算法“WaveNano”，該算法直接解決了困擾生物學家的納米孔測序儀錯誤率較高問題，并在國際頂級生物信息學會議ECCB發表。

作為一個計算機學家，高欣的算法研發沒有止步于WaveNano，做出以上研究之后，他開始反問自己：1.自己有沒有可能得到更可控、質量更好的標注數據訓練監督式學習模型？2.自己有沒有可能大幅提高DTW算法時間復雜度？

這些問題也在日后的研究中逐步被優化和改進。

以下是演講全部內容，雷鋒網做了不改變原意的整理和編輯：

大家晚上好，我是高欣，很高興跟大家進行分享。今天的題目是“更精準的生物醫學及基因組學”。

大家知道藥物發現是一個極其漫長且昂貴的過程。一個藥物平均從最初研發到上市，需要15~20年時間，耗資超過20億美元。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

這一漫長流程由多個步驟組成的，從最開始靶點識別，到先導化合物發現、先導化合物優化、臨床前動物實驗、多期臨床實驗。

整個流程當中，任何一個步驟出現失敗，都導致整個流程以失敗而告終，整個藥物發現流程成功率非常之低，只有不到5%。

如果對當中各個步驟統計會發現，每一個步驟的失敗率都在隨時間變化而逐年增高。

而且在這些步驟中，晚期發現失敗消耗的代價，要遠遠大于早期失敗。因此，早期步驟成功率在整個流程至關重要。

今天跟大家分享的題目，就主要集中在藥物發現第一步“靶點識別”。

長讀長測序：基因組數據的抽提利器

我想談的是，如何通過第三代測序技術，更快、更準確得到基因組數據，得到基因組數據之后，如何更好解讀基因組數據，以求發現更好的藥物靶點。

這個系列云峰會講座當中，后續speaker還會給大家分享不同步驟以及整體流程上一些振奮人心的工作。

今天我主要集中在第一步，介紹我的課題組工作，即時DNA測序方面成果。

現代醫學大多都是基于基因組診斷，人共有30億對堿基，這些堿基都是非常長的基因組序列。

大家可以把它理解成一本非常厚的字典，每個人都有一個模板。抄寫這本字典的時候，就無法避免犯一些錯誤，例如插入、刪除、錯別字等等。

絕大部分錯誤不會導致嚴重后果，但如果在一些關鍵位置抄寫錯誤，就會導致罕見遺傳疾病。基因組診斷就是要把這些抄寫錯誤和罕見遺傳疾病相互關聯起來，做到這一點，就要知道錯誤發生地點。

因為生物技術所限，我們沒有辦法通讀整個字典，只能把字典拆分成一頁一頁，或一段一段分別解讀，最后整合起來。

這是一件非常難的任務，就好像是很出名的變形藝術—metamorphosis。

基于這種metamorphosis變形藝術設計拼圖游戲，就會發現拼圖游戲非常難，因為所有piece都高度相似，沒有任何兩塊完全一致。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

因此，大家想出各種辦法克服技術上難點，其中一個直觀辦法就是把拼圖塊從小塊變成大塊，所謂長讀長DNA測序。

長讀長DNA測序，主要有兩種技術：PacBio和納米孔。

納米孔相對于其它測序技術來說，主要有幾大優勢：

第一，便攜性，納米孔測序儀大小只有手機一半大小，理論上可以在世界任何時間、任何地點，提供及時檢測，也就是point of care；

第二，測序長度非常長，可以讀長有大約10k到100k這么長，相對于二代測序100~200bp長度，已經是很長的讀長長度，因此可以很好處理大結構變異，以及DNA中的repeat；

第三，納米孔測序不需要進行PCR擴增。

既然有好的地方，就一定有壞的地方，納米孔有這么多技術上優勢，主要劣勢就是測序精度。

例如R9 Flowcell，測序精度只有85%左右；即使最新R10，官方精度也只有95%左右，相比于二代測序99%精度，這個確實非常低。

數據處理：納米孔測序的長期瓶頸

測序精度低除了設備上局限性，納米孔數據分析也是非常難的任務。

在此，我簡單介紹一下納米孔工作原理，納米孔當中有一個膜，膜上有一些穿膜蛋白，即membrane protein。

單鏈DNA會被蛋白酶拽著通過膜蛋白，在任何一個時間點膜蛋白當中大約有5到6個堿基，所以可以假設是一個5mer總共會有45，大約1024種不同5mer。

由于5mer組合不同，形狀不同，對孔阻塞程度也不一樣，因此，當膜兩端加上電壓再去測一個時間點有多少電流能通過時，就會發現不同5mer在孔中的電流值不一樣。

而且納米孔測序儀測出的原始數據是離散時間序列電流值。我們想做的是解碼，把離散時間序列電流值解碼成ACGTDNA讀長。

對于計算機同學來說，解碼是一個非常經典的任務，有很多現成算法，但納米孔解碼和傳統解碼完全不同，主要有幾大技術難點：

第一，電流測量范圍小。1024種不同5mer，它們之間平均誤差已經小于電流之間測量誤差，直接做解碼，就會有很多不確定性。

第二，DNA序列并不勻速通過，有的時候很快，有的時候很慢。但電流是以恒定頻率被測量，因此在電流中，有的5mer會被測兩次，有的5mer會被測200次，平均一個5mer大約被測10次左右。

從離散時間序列角度來說，并不知道任何一個時間點是在測上一個時間點5mer，還是下一個5mer。

第三，信號聯配困難，DNA讀長大約有1萬到10萬這么長，原始電信號長度又是DNA讀長10倍左右，也就是10萬到100萬這么長。

如果把兩個序列進行聯配，最標準算法就是動態規劃，這是一個平方時間和空間復雜度算法，這么長序列里，這種算法時間復雜度同樣也沒有辦法接受。

納米孔測序數據分析是一個非常難的任務，我的課題組過去三年里，已經研發端到端計算平臺用于處理納米孔測序數據分析等關鍵問題。

WaveNano：納米孔測序的解碼框架

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

現在給大家做個簡單介紹：就是把特定離散時間序列電信號解碼成一個DNA讀長，最終設計成一個基于監督式學習的解碼問題。

這是我們三年前設計的一個深度學習框架“WaveNano”，當中深度學習單元主要采用wave net單元，也就是聲波網絡相關單元想法結合wave net和殘差網絡，從上游到下游分別提取序列中信息，并把信息整合起來。

接下來訓練一個監督式學習模型，預測任何一個時間點的上下標簽。

第一個標簽是時間點，和上一個時間點對比，究竟是同一5mer，還是變成下一個5mer。

第二個標簽是分類，任何一個時間點測量5mer屬于1024種中的哪一類。

預測完兩種標簽概率之后，我們就可以通過概率引導Viterbi解碼算法，解碼出DNA讀長序列，整個流程最重要的就是“如何為監督式學習準備訓練數據”。

雖然可以從公共數據集拿到很多配對原始電信號和DNA讀長信息，但如果想做監督式學習，就需要知道這些原始電信號的任何一個時間點二類標簽和1024類內容。

但原始電信號序列非常長，沒有人會手工標注這些標簽，只能自己進行數據標注，找到原始電信號和DNA讀長之間最優聯配。

這種問題，一般通過動態時間規整算法—“dynamic time warping”就可以解決。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

大家可以把它理解成動態規劃的變種，動態規劃沒有空位罰分(Gap Penalty) 的情況下的變種。因為它的電流序列長度是DNA序列長度10倍，因此一旦gap penalty，gap penalty就會占據主導位置，最后聯配不會好，因此就需要采用沒有罰分項動態規劃變種，就是DTW算法。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

簡單給大家展示一下DTW算法性能，和官方base calling、Metrichor和Albacore等方法進行對比。

因為其它兩個程序并不開源，不知道訓練數據情況，這個比較可能還不公平，尚且無法斷言，我們的算法base calling要比官方的好。但從這個表格至少可以發現，WaveNano工具非常不錯。

問題溯源：兩大思路繼續精細化

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

但我對WaveNano其實并不滿意，為什么？

首先，我更感興趣的是現有問題，是為挑戰性問題量身打造的新算法，不是簡單應用市面上已有深度學習框架。

其次，這個問題還有兩個限制：

第一個限制，訓練數據準確度不可控。對于監督式學習模型，如果訓練數據質量不好，或標注不好，最終無論算法多么強大，訓練出的模型一定不好。

而剛才訓練的模型，都是自己聯配得來的訓練數據，完全不知道離真正ground truth相差多遠。

第二個限制，運算速度比較慢。對原始電信號序列和DNA讀長序列進行聯配的時候，DTW還是一個平方時間復雜度算法，對于序列聯配的速率還比較慢。

因此，做出這些研究之后，作為一個計算機學家，我問了自己兩個問題：

1.自己有沒有可能得到更可控、質量更好的標注數據，用于訓練監督式學習模型？

2.自己有沒有可能大幅提高 DTW算法時間復雜度？

接下來，介紹一下兩個問題的解決方式：

其實深度學習經常會出現數據量不夠，或者標注數據量不夠的情況。

這種情況下，大家經常會使用模擬器，例如Alpha Go就大量使用模擬器模擬非常多的圍棋對弈。

納米孔訓練上，我也想到了模擬器想法，雖然在此之前已經有若干納米孔模擬器，但這些模擬都是DNA讀長，沒有任何人能夠模擬原始電信號序列。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

因此在三年前，我們提出了一個想法—Deep simulator，它可以模擬納米孔測序整個流程。

首先，主要通過給定基因組，隨機把它打成一些DNA讀長，并且保證這些DNA讀長分布和真實數據讀長分布保持一致。

其次，對于這些隨機生成讀長的每一個DNA，還要隨機生成它的原始電信號序列，最后用base caller，從原始電信號序列把DNA讀長給呼叫回來。

因為自己的base caller并不完美，所以call回來的DNA讀長并不完美，自然會引入一些插入刪除，以及一些variation。

但最終模擬器還是為業內人士提供大量訓練數據，用于訓練他們的解碼器，被大家使用的頻率非常多。

所以去年，我們又提出模擬器1.5版本。這里簡單介紹一下其中的技術細節。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

第一步，生成和實際數據讀長長度分布一致的讀長長度，為了達到這個目的，就需要對實際數據進行讀長分布總結。

我們發現，實際納米孔測序數據基本服從三個分布：指數分布、β分布和兩個γ混合分布。

我們分別對三個分布進行參數估計，然后把選擇權留給用戶，用戶選擇按照哪一種分布去進行生成，最終發現生成的數據讀長分布，和實際真實分布非常類似。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

第二步，對隨機產生的DNA讀長生成原始電信號序列。為了這件事，我們又提出了新模型—深度典型事件規整（deep canonical time warping）。

它的想法是基于DNA讀長和原始電信號，分別加入兩個深度學習網絡作為特征提取器，提取出來兩個特征序列。

如果讀長和原始電信號序列是對應的，那這兩個提取出來的特征序列就應該最大程度耦合到一起，因此采用典型相關分析值作為損失函數，會逼著我們深度學習框架，學到更好的特征提取。百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

在模型訓練過程中，我們可能需要訓練整個網絡，但測試階段只需要使用其中部分，也就是從一個讀長生成原始電信號序列。

因為每一個5mer都會平均被測到10次，所以還要對每一個真實5mer重復測量次數進行統計，統計匹配分布，使得數據5mer重復測量次數和真實數據達成一致。

我們分別在4個物種上進行了模擬器訓練和測試。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

簡單給大家展示一下結果，通過這個圖里所有對角線之的點，大家可以看到模擬器要遠遠好于現在市面上現有模擬器。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

回到第二個問題，也就是如何更快進行DNA讀長和原始電信號序列聯配。

大家已經知道，原始電信號序列長度是DNA讀長10倍，而DNA讀長長度是1萬-10萬，原始電信號讀長就是10萬-100萬。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

盡管有非常多DTW算法變種已經被前人所發現，但所有這些方法都無法處理這么長、尺度相差這么大的兩個序列聯配。

基于motivation，我們提出了一種新算法—連續小波變換DTW，也就是CWDTW，它整合了三種不同idea，第一分層動態規整，第二粗化動態規整，第三受限動態規整。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

在這里我列舉一個案例，如果想對兩個原始序列進行聯配，但兩個序列都特別長，沒有辦法直接聯配，就需要通過連續小波變換把信號進行壓縮和特征提取。

因為連續小波變換，在原始電信號特征提取層面已經被證明具有很強優勢，所以通過連續小波變換，可以讓原來序列長度變得非常短。

在短序列維度上，就可以進行最優DTW算法，找到聯配路徑，而其還可以從粗化連續小波變換維度，找到更細化維度，隨后序列就會變長，同時還會把找到的聯配路徑，投影到更細化的分辨率上。

在投影過程當中，我的聯配路徑一定不會是最優，但假設聯配路徑是一個很好的出發點，假設成一個更好聯配路徑。

在這個路徑的鄰距范圍，假設一個窗口大小，讓算法這個窗口范圍內找到更好的聯配路徑。

當然窗口大小也是算法重要參數之一，隨著找到更好的聯配路徑，就可以把它再映射到更高分辨率維度上，隨著整個過程的不斷循環，就可以獲取到最原始的維度。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

這張圖，比較了該算法和現有DTW算法性能差異，對角線上就是最優解，離對角線越近，說明找出來的聯配路徑離真實聯配路徑就越近。

大家看到紅點就是FAST DTW，它離真實聯配路徑非常遠，CWDTW基本上都能找到最優聯配路徑幾乎一致的路徑。

從時間上來講一個CPU核上聯配一對需要花費時間為0.31秒；而FAST DTW需要136秒，原始DTW需要916秒，也就是說在單核上，CWDTW把原始DTW提速了3000倍，把FAST DTW提速了400倍。

疾病嵌入：從基因數據到疾病表征

剛才介紹了通過AI方法以及高效算法，研發端到端即時DNA測序平臺，我們不但要測DNA序列，還要解讀DNA序列，以求發現更好的藥物靶點。

在這方面，我們也做了很多工作，例如有了DNA序列之后，怎樣發現每一個樣本突變，怎么把它和疾病建立準確的關系。

為此，我們兩年前提出了一個想法—“疾病的嵌入。”通過1.5億美國人健康保險數據，把人類600多種所有疾病同時投影、嵌入到一個高維連續空間內。

這種嵌入一旦完成，就不需要再把疾病名字當成離散名詞來使用，例如糖尿病、肝癌，大家不知道兩個病之間關系是什么，更不存在定量關系。

疾病嵌入之后，每一個疾病都變成20維連續空間的一個向量，不但可以談論疾病之間相似性，還可以談論疾病之間不同點。

而且過去一個人同時得了多種疾病，也知道如何去表達，通過疾病嵌入只需要把這幾種疾病向量相加到一起，或者加權到一起，就可以代表病人的disease tree。

有了疾病嵌入連續表征之后，我們還可以把之前所有跟疾病相關study都重新做一遍，因為不再需要對每一種疾病單獨建模，通過對人類600多種疾病進行分析和建模，可以極大提高統計power。百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

這是我們兩年前的工作，證明當疾病嵌入空間向量為特征時候，可以在任何一個地方，例如丹麥、瑞典這種基因組學數據上估算遺傳學參數。

此外，我們還從疾病的發病年齡中就發現，不同疾病的發病年齡有很強的模式，基本可以聚成5種不同類型疾病種類。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

除了這些，疾病嵌入空間還可以重新做之前的基因組關聯，也就是GWAS，同時對人類600種疾病進行基因關聯。

我們在英國UK Biobank上，通過疾病嵌入特征空間，跟基因組突變空間進行新關聯，就發現了116種非常強的關聯信號。

這在之前GWAS研究都沒有發現。而這116種強烈關聯信號，很有可能作為新疾病藥物靶點，同樣的想法還可以應用到多模態同時嵌入，就是除了嵌入疾病還可以做藥物和疾病關聯嵌入。

這樣疾病可以作為正則項來影響藥物嵌入，反過來藥物也可以作為正則項來影響疾病嵌入，不但可以嵌入疾病和藥物，還可以嵌入他們之間的關系，更好發現新靶點，以及疾病潛在藥物。

深度解碼：罕見遺傳病的隱性秘密

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

有了基因組之后，還可以找一些更隱性、更深的致病突變。例如孟德爾疾病就是由某一突變或某一基因突變造成，這是人類了解最多的疾病。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

臨床上為這類病人 order全外顯子或者全基因組測序，最后測序回來report，最終成功率只有25%~50%以內。

對這么簡單病因疾病，我們都沒有辦法進行全面診斷，主要原因在于很多突變都非常深層，是隱性突變，并不直接作用于編碼蛋白，或基因組層面，而是轉錄組層面。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

例如，它可能引發某些異常轉錄本出現，或者正常轉錄本異常表達量等情況出現，這種信號往往會由于人體NMD機制，變得非常微弱。

因此，如果想從序列測序數據中發現這種異常轉錄本，或者正常轉錄本異常表達，就需要敏感度非常高的算法。

我們也研發了一些基于轉錄本的疾病診斷方法，通過跟沙特臨床醫生合作，診斷之前懸而未解的罕見遺傳疾病。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

例如去年我們第一個study就診斷了一個小頭侏儒癥個體，這個人有腦白質疏松以及智力發育遲緩，最終發現，他在基因區間有一個38bp大小的deletion。

我們第二個study也研究了4個不同family，這4個家族同時具有發育遲緩、小頭侏儒癥以及面部畸形，在他們SMG8基因當中，發現一個非常deep的致病突變。

除此之外，還有另一種解讀基因組方式，通過理解regulatory code（調控代碼），由于基因組里有非常多調控元件，即使在編碼區域，也有幾種最常見的調控機理，從起始出發，由轉錄起始位點調控；從結尾出發，由多聚腺苷酸加尾，也就是polyA。

如果只盯著最淺顯方式，也許有幾十個方式，但現在所有方法都沒有辦法對任意PolyA位點進行同時建模。

所以，我們從去年提出了DeeReCT工具，它結合了CNN和RNN的優點，從而得到自適應模型，對任意PolyA位點進行同時建模，以model這些位點之間競爭性。

百圖生科科學顧問高欣：自我否定、二次創新，我為納米孔測序提供了更可靠的AI工具 | 萬字長文

我們把目光集中在多聚腺苷酸加尾，還研究了轉錄起始位點—TSS，研發了第一個基于深度學習的轉錄起始位點預測程序—Direct PeomID。

該方法與之前所有轉錄起始位點預測程序相比，除了采用深度學習框架，最大區別就是在比較平衡的正負數據集上的二分類問題。

當把這些訓練好模型應用到全基因組掃描時，就會發現他們的假陽性率非常高，甚至高到無法實際使用，而這種循環迭代負樣本增強想法，能夠非常有效降低全基因組掃描假陽性率。

目前為止，Direct PeomID還是唯一一個可以在全基因組層面預測轉錄起始位點的工具。除此之外，我們還做了各種后續工具，這些都是沿著調節代碼方向來操作。

最后替百圖生科打一個廣告，百圖生科是在李彥宏和劉維帶領下的干濕技術結合的造藥新勢力，干技術就是AI；濕技術就是生物技術。通過形成AI賦能的干濕結合大閉環，希望能夠從全新角度為人類藥物設計研發，做出一些突破性貢獻，我們還希望更多有識之士能夠加入。

問答環節

Q1：目前 AI新藥研發有沒有已經研發出的藥物以及應用的案例？

高欣：這里如果把已經研發出來定義為獲批上市，據我所知，目前AI研發的新藥還沒有獲批上市的先例。

但已經有非常多AI研發或AI輔助研發藥物在各期、不同臨床實驗當中。

此外，新藥和研發這兩個詞，還有著不同的解讀。

第一種解讀，是為已知靶點，尋找之前不知道的化合物或藥物分子。

第二種，是為已知藥找新適應癥，也就是老藥新用。

第三種，是完全從0開始，設計之前沒有的小分子或大分子藥物。

事實上，各種不同解讀情況當中，AI已經做出非常喜人的成果和進展。

例如從零開始藥物設計上，就有非常出名的案例，MIT的James Collins lab就研發了一種從0開始的抗生素藥物設計。

這種抗生素，在試驗中已經展現出非常好的抗細菌效果，能夠殺死一些已知抗生素沒有辦法清除的細菌。

此外，其它藥物也有各種各樣例子，國外制藥企業和國內AI藥物研發企業都有藥物在臨床實驗當中。

Q2：AI藥物研發的原始數據獲取來源都有哪些？

高欣：這要回歸到 AI藥物研發根本，這是一個系統性學科，需要涉及到生物醫療的方方面面。

如果大家想從整體、完整角度去做AI藥物研發，就需要獲取方方面面所有原始數據來源。例如序列、組學、影像學、臨床數據、生物技術數據、文本數據、三維結構數據等等，所有數據都會對最后平臺成功性做出一定貢獻。

Q3：NLP（自然語言處理）對于AI藥物研發的用處有哪些？

高欣：NLP是深度學習最成功應用的兩大領域之一。所謂AI藥物研發，很大程度是指深度學習賦能藥物研發。也就是NLP在AI藥物研發過程當中占到至關重要的作用。

這里給大家列舉兩個經典案例：

第一， NLP被大量地用于知識圖譜研發。

第二， NLP被大量用于各種各樣蛋白質分子或DNA分子模型預訓練，這些預訓練模型被證明能夠非常有效提取生物分子特征，并且服務各種下游。

例如AlphaFold2，應該就是基于某種蛋白質預訓練模型，或protein的transformers，所以NLP技術在AI藥物研發用處非常大。

Q4：百圖生科的研發中是否用到藥物研發知識圖譜，規模有多大，數據源哪些，質量如何保證及評估。

高欣：這是非常好的問題。藥物研發知識圖譜取決于靶向疾病、靶向靶點，或者藥物搜索空間到底有多大，它會有相應規模，這種知識圖譜質量應該如何評估？

首先盡量確保數據和信息準確，一個是數據源是否可靠，再就是數據源手工校準，或者各種各樣清洗、預處理是否合理，最后，還要看下游預測結果是否和先驗知識吻合。

Q5：藥物研發過程中，除了發現新的適應癥，如何進行臨床療效評價？

高欣：藥物進入臨床療效評價已經是非常后期的任務。

如果這個時候藥物被證明副作用較大，或者體內不起效，損失的時間以及代價就非常大，所以在臨床療效評價之前，應該盡量確保藥物被很好測試。

這些測試有各種各樣方法，有統計學相關、文本挖掘、先驗知識印證相關。

最后就是臨床前實驗，例如在濕實驗室進行實驗，或者在IPS細胞當中進行實驗，或者類器官當中進行實驗，或者是動物實驗。

無論如何，大家都希望在代價不可挽回的時間點前，將這些藥物的問題盡早發現出來并盡早進行挽救。

Q6：AI發現新適應癥有幾種方法？各自的優缺點是什么？

高欣：這是一種非常泛的問題，AI發現新適應癥，就是一個非常大的問題，基本能想到的所有方法都可以被應用這個領域。

例如基于知識圖譜方法、基于三維結構方法，基于多組學分析的方法，基于分子動力學模擬的方法，很難準確界定AI發現新適應癥有幾種方法。

Q7：在算法設計過程中，應如何與藥學家進行合作，用先驗知識指導算法設計，從而使算法效率更高、結果更加安全科學？

高欣：這是一個非常好的問題，涉及所有交叉領域。不光是與藥學家合作，與地質學家合作、生物學家合作、植物學家合作、海洋學家合作、化學家合作等等都將面臨這個問題。

這個問題最好要找到互相之間的共同語言、尊重對方專業、認可對方專業、對自己專業重要程度有良好認識合作者，然后與這些合作者進行密切的、閉環式交流與合作，有反饋合作才是成功代表。

如果只是單純輸出給另一方，沒有反饋，那么這種合作注定不會成功，也不會安全。

在AI制藥中就是指藥學家的先驗知識到底是什么，并且把他的先驗知識給進行結構化，進行政策化。

把他的先驗知識很好融合到數學模型和AI模型當中，然后再用預測結果去提供給藥學家，讓它進行甄別，讓他給更下一步反饋意見，進行所謂的強化學習，

往返的閉環，才能使算法效率更高，結果更加安全和科學。

Q8：AI藥物研發所用到的外部計算軟件哪些是主流？還是自己開發計算軟件？

高欣：這同樣是個好問題，涉及到很多做生物信息或者計算生物學的人。

大家知道計算生物學和生物信息的科學家們，本身并不開發新計算軟件，但他們熟知現有所有軟件、包、庫。

如果他們拿到新數據和新問題，可以非常熟練把現有方法應用到問題上，然后選擇表現性能最好方法。

此外，還有另一類生物信息學家，他們并不滿足于這種現有方法，而是希望測試所有現有方法，當現有方法能夠很好解決這些問題的時候，他們才不再研發新方法。

否則他們會總結現有方法的優缺點，然后有的放矢地設計和開發自己的計算軟件，針對性地解決問題，而且能夠overcome這些現有外部計算方法共同約束和限制。

目前，兩種不同類型的研發和科研理念，都有非常成功的例子，沒有一概而論的答案。

Q9：AI開發的候選藥，比傳統方法開發臨床實驗成功率會有多大提升？

高欣：具體有多大提升，取決于具體例子，也是一個case-by-case的答案。

傳統方法的改進空間實在太大，傳統意義上，藥廠開發新藥需要15~20年時間，超過20億美元代價，而失敗率超過95%，成功率還在逐年下跌，所以即使把5%成功率提高到10%，也是巨大的進步和飛躍。

對于某些疾病、某些靶點，可能把5%提高到30%，有些則可以把5%提高到10%。無論如何都是一個非常好的進展。

大家隨便上網就會發現，國內AI藥企，已經可以把新藥研發周期縮短到12~18個月，開發費用縮小到百萬美元量級，這已經是飛躍式的進展。如果最后臨床實驗證明安全有效，這些藥物可以獲批上市將是一個非常好的應用案例。

Q10：目前AI藥物研發是否主要基于分子結構？基于基因組數據的Ai藥物研發，當前研究進展和未來發展如何？

高欣：首先，基于分子結構，只是非常多元信息當中的一員而已。那么主要基于分子結構的這種藥物研發，例如薛定諤，他們可能是主要基于分子結構來進行AI藥物研發。

但很多其他公司，完全是基于基因組數據，或者主要基于基因組數據來進行藥物研發，例如加拿大DeepGenomics，他們都是基于大規模組學數據，影像數據進行AI藥物研發。

Q11：AI藥物研發的后續開發路徑，后續可能形成的商業化的形式是什么？與big pharma 合作更多的在藥物方面深入，還是受到藥企的委托去做外包服務的方式? 感覺會往either 是一個藥企 or 一個CRO公司方向發展？

高欣：這是和商業計劃有關問題，對于集中在某一個局部痛點的AI藥物研發公司來說，它們主要商業模式可能是與藥企進行密切合作，為藥企某一步或整個平臺進行賦能。

而百圖生科希望的就是和這些AI藥物研發公司形成互補，一同做風險更高、未來期待收益更高大規模端到端內部閉環藥物開發模式。

這不光是某些AI算法調參或局部優化，更希望有一個端到端的AI工程化和AI智能化研發，同時賦予in house生物技術以及高通量生物數據，形成內部資產閉環。

最后感謝大家提出這些非常有建設性的問題，希望下次還有機會交流。雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

AI新藥研發未來獨角獸云峰會

本專題其他文章

劉海濤

編輯

專注AI醫療的新勢力和投融資丨微信ID：Daniel-six

發私信

當月熱門文章