0
| 本文作者: 李雨晨 | 2020-01-25 14:44 |

(圖片來源:Lynne Shallcross / KHN)
雷鋒網按:本文譯自KHN,作者Liz Szabo,雷鋒網對其進行了編譯。文章的基調略顯悲觀,言語之中對醫療AI多有批評。誠然,現階段醫療AI有很多不足的地方。想要真正獲得世人的認可,醫療AI要做的事情還有很多,這既需要創業者能夠腳踏實地、保持初心,也需要我們對AI尤其是醫療AI這個新事物保持足夠的信心。
從虛擬醫生到可穿戴式設備和藥房里的對話機器人,基于AI的健康產品正在快速進入我們的生活。
美國加州的Scripps Research公司心臟病專家兼執行副總裁Eric Topol博士說:“在30多年的醫學研究中,我發現沒有像AI一樣具有影響力和變革性的東西。AI幫助醫生解釋心臟的核磁共振圖像、頭部CT的圖像和眼底照片,還能夠處理很多瑣碎的事情,讓醫生騰出更多的時間來關護病人?!?/p>
就連過去5年批準了40多種人工智能產品的FDA也表示,“數字健康的潛力是革命性的。”
然而,一個行業的成長不是一帆風順的,畢竟醫療AI還處于很早期的階段。因此,就有許多醫療行業專家擔心,基于AI的產品將無法達到宣傳的效果。許多醫生和保護用戶權益的人士擔心,以“不斷試錯、不斷迭代”為信條的科技行業正在把病人置于危險之中,而監管機構在保護用戶安全方面顯然做得不夠。
斯坦福大學生物醫學倫理學中心的兒科教授Mildred Cho說,現在市面上的早期人工智能產品(的實際表現),提醒我們在研發、部署的過程中應該謹慎再謹慎。
Cho說,在一家醫院開發的系統在另一家醫院部署時經常會失敗。事實證明,應用于數百萬美國人的AI產品已經顯示出對少數族裔的歧視,而且AI系統有時會根據與疾病無關的因素做出預測。
在一個案例中,AI軟件錯誤地得出結論:患有哮喘的肺炎患者死亡的可能性較小。這一錯誤可能會讓醫生對哮喘患者的病情放松警惕。
克利夫蘭診所的心臟病學主席Steven Nissen博士說:“這種情況(AI作出錯誤判斷)導致嚴重的事故只是時間問題?!?/p>
研究公司Gartner在2019年7月份的一份報告中總結道,僅在2019年第三季度,醫療AI產品就吸引了16億美元的風險資金,“幾乎處于虛高預期的頂峰” 、“隨著現實的考驗,醫療AI可能會陷入幻滅的低谷”。
即便是《Deep Medicine:How Artificial Intelligence Can Make Healthcare Human Again》一書的作者Topol也承認,許多人工智能產品不過是空話,“這是一個大雜燴。”
風險投資公司Venrock的合伙人Bob Kocher等專家則直言不諱,“大多數人工智能產品幾乎沒有證據支持它們,”Kocher說,“在人工智能系統被大量患者使用之前,一些風險不會變得明顯。我們將繼續發現在醫療數據上使用人工智能的一系列風險和意想不到的后果?!?/p>
Topol說,在美國銷售的人工智能產品都沒有經過隨機臨床試驗的測試,而隨機臨床試驗是最有力的醫學證據來源。第一個也是唯一一個人工智能系統的隨機試驗——計算機輔助診斷的結腸鏡檢查比標準方式發現更多的息肉于2019年10月在線發表。
《歐洲臨床研究雜志》2019年1月發表的一篇文章稱,很少有科技初創公司在同行評審的期刊上發表研究成果,而同行評審的期刊可以讓其他科學家審查他們的工作。這種只在新聞稿或公開活動中描述的“秘密研究”,往往夸大了一家公司的成就。
軟件開發人員可能會高估人工智能設備的準確性。專家指出,這是因為,人工智能模型大多是在計算機上測試的,而不是在醫院或者其他醫療機構。斯坦福大學醫療保健學院AI臨床整合醫學信息學總監Ron Li博士說,使用未經驗證的軟件“可能會使患者成為不知情的豚鼠”。
除此之外,學習識別數據模式的人工智能系統通常被描述為“黑匣子”——開發人員也不知道是如何得出結論的。威斯康星大學麥迪遜分校法律與生物倫理學教授Pilar Ossorio表示,考慮到人工智能是如此新的事物,而且它的許多風險還不為人知道,這個領域需要仔細的監管。
然而,大多數人工智能設備并不需要FDA的批準。
Kocher說:“我所投資的公司都不受FDA的監管。”
2016年,美國國會通過了一項法案,將許多類型的醫療軟件排除在聯邦審查之外,其中包括某些健身應用、電子健康記錄和幫助醫生做出醫療決定的工具,這項法案得到了科技行業的支持。
美國國家醫學研究院12月17日發布的一份關于人工智能的報告顯示,很少有關于目前使用的32萬個醫療應用是否真的能改善健康的研究。
長期以來,FDA一直將注意力集中在對患者構成最大威脅的設備上。消費者權益保護人士也承認,與診斷或治療疾病的設備相比,一些幫助人們計算日常步數的設備只需要較少的檢查。
2018年《內科醫學年鑒》的一項研究顯示,即使有法律要求,一些軟件開發人員也不用申請FDA批準或授權,他們對進行昂貴而耗時的試驗興趣不大。
博思艾倫咨詢公司的負責人、美國國家科學院報告的合著者Joachim Roski說,“這些公司主要關心的不是將自己提交給同行評議的期刊進行嚴格的評估。”
但西雅圖艾倫人工智能研究所(Allen Institute for AI)首席執行官Oren Etzioni表示,從經濟的層面來說,人工智能的開發商確實需要保證自己產品的安全性。
Etzioni說:“如果快速失敗意味著很多人會死去,我認為我們不希望快速失敗?!薄叭绻腥怂劳龌驀乐厥軅?,沒有人會高興,包括投資者?!?/p>
放寬準入標準,FDA做對了嗎?
近年來,FDA因允許銷售危險醫療設備而備受指責。國際調查記者聯盟認為,在過去10年里,這些危險醫療設備導致8萬人死亡、170萬人受傷。
這些設備中有許多是通過一種被稱為510(k)途徑的、有爭議的程序獲得許可使用的。該程序允許公司在沒有臨床測試的情況下銷售“中等風險”的產品,只要它們被認為與現有設備相似。
雷鋒網了解到,2011年,美國國家醫學研究院的一個委員會得出結論,認為510(k)程序存在根本性缺陷,FDA應該將其淘汰并重新開始。
但相反的是,FDA正在利用這一過程為人工智能設備開綠燈。
據《美國醫學會雜志》11月的一篇文章稱,FDA在2017年和2018年批準的14種人工智能產品中,有11種通過了510(k)程序。研究稱,這些產品似乎都沒有進行過新的臨床試驗。
2018年,FDA批準了一款人工智能設備,該設備旨在幫助診斷肝癌和肺癌,其原理與20年前批準的成像軟件相似。該軟件本身已被批準,因為它被視為“基本上相當于”1976年以前銷售的產品。
FDA設備與放射衛生中心的數字健康主管Bakul Patel說,今天由FDA批準的AI產品基本上是“鎖定的”,因此它們的計算和結果在進入市場后不會改變,FDA還沒有批準“解鎖”的人工智能設備。
為了應對大量AI產品,FDA正在測試一種完全不同的數字設備監管方法,側重于評估公司,而不是產品。
FDA于2017年啟動的“預認證”試點項目,目的在于“減少軟件開發人員進入市場的時間和成本”,盡可能采用“負擔最小”的系統。FDA官員表示,他們希望跟上人工智能軟件開發商的步伐。與X光機等傳統設備制造商相比,人工智能軟件開發商更新產品的頻率要高得多。
2017年擔任FDA局長時,Scott Gottlieb曾表示,政府監管機構需要確保其創新產品的方法“是有效的、能夠促進創新、而不是阻礙創新”。
根據該計劃,FDA將對那些“表現出質量和組織卓越文化”的公司進行預先認證,這將使他們能夠提供較少的設備前期數據。
預先認證的公司可以發布帶有“流線型”審查的設備——或者完全不需要FDA審查。一旦產品上市,公司將負責監控自己產品的安全性并向FDA匯報。蘋果、FitBit、三星、強生、Pear Therapeutics、Phosphorus、羅氏、Tidepool和 Verily Life Sciences等九家公司已被選中進行試點。
當然,高風險產品如用于起搏器的軟件,仍將接受FDA的全面評估?!拔覀兘^對不希望病人受傷,”Patel說,如果需要,通過預先認證的設備可以被召回,“我們仍然有很多‘護欄’?!?/p>
但研究表明,即使是低風險和中等風險的設備也會因為對患者的嚴重風險而被召回,例如,強生公司就曾召回了髖關節植入物和外科手術網。
所以,在寫給FDA的一系列信函中,美國醫學協會和其他機構對允許企業監控自身績效和產品安全的做法是否明智提出了質疑。
“榮譽不代表就可以放松監管的力度。”醫師協會董事會主席Jesse Ehrenfeld博士說。
在10月份寫給FDA的信中,馬薩諸塞州民主黨參議員Elizabeth Warren、明尼蘇達州民主黨參議員Tina Smith和華盛頓州民主黨參議員Patty M·urray質疑FDA是否有能力確保公司安全報告“準確、及時并基于所有可獲得的信息”。
某些AI設備比其他設備經過了更仔細的測試,就以去年獲批的IDx-DR產品為例,在2018年獲得批準之前,研究人員對10家初級保健診所的900名患者進行了一項人工智能篩選糖網的研究。
IDx Technologies公司的創始人兼執行董事長Michael Abramoff博士說,該公司與FDA合作了八年,才把產品做好。
雷鋒網了解到,IDx-DR產品可以對糖網患者進行篩查,并將高?;颊呓榻B給眼科專家,由他們做出最終診斷。IDx-DR是第一個“自主”的人工智能產品,它可以在沒有醫生的情況下做出篩查決定。
目前,該公司正在初級保健診所和雜貨店安裝AI系統,可以由具有高中文憑的員工進行操作。另外,Abramoff還購買了責任險來承保任何患者的風險。
然而,一些人工智能創新產品卻產生了相反的效果。
例如,一家加拿大公司開發了一款人工智能軟件,根據一個人的語言來預測患老年癡呆癥的風險。但是,個別患者的預測卻比其他患者更準確。研究報告的撰寫者之一、多倫多大學計算機科學副教授Frank Rudzicz解釋說:“可能是由于一些人不熟悉英語,不知道怎么表達,而非認知障礙?!?/p>
第二個例子是,紐約西奈山醫院的醫生們希望AI幫助他們利用X光片,來預測哪些病人有患肺炎的高風險。盡管該系統可以根據在西奈山拍攝的X光片做出準確的預測,但在對其他醫院拍攝的圖像進行測試時卻失敗了。
最終,研究人員意識到計算機只是學會了辨別在病人床旁拍攝的便攜式胸部X光片與在放射科拍攝之間的X光片的區別。
而對于那些病重而無法離開房間的患者,醫生傾向于使用便攜式胸部X射線檢查。這些患者本身的病就很重,發生肺部感染的風險更大也就不足為奇了。
再比如,谷歌旗下的DeepMind開發了一款基于人工智能的移動應用程序,可以提前48小時預測哪些住院患者會出現急性腎衰竭。DeepMind網站上有文章將倫敦一家醫院使用的這一系統描述為“游戲規則的改變者”。
但是,根據《自然》雜志7月份的一項研究,人工智能系統也會對每一個正確的結果產生兩次錯誤警報。賓夕法尼亞大學附屬醫院放射學副教授Saurabh Jha博士說,這或許可以解釋為什么患者的腎功能沒有改善。Jha說,早期發現嚴重腎臟問題的任何好處都可能被高比例的“過度診斷”所稀釋,在這種情況下,人工智能系統會標記出不需要治療的“邊緣性”腎臟問題。
結果,谷歌對Jha的結論不予置評。
Jha說,假陽性可能會讓醫生進行不必要的檢查或停止推薦的治療方法,從而對患者造成傷害。例如,醫生擔心病人的腎臟可能會停止開布洛芬(一種對腎功能有小風險的安全止痛藥),轉而開阿片類藥物,這種藥物有嚴重的成癮風險。
斯坦福大學的Cho說,正如這些研究表明的那樣,在實驗室里取得好成績的軟件在實際場景中可能會失敗。這是因為疾病比許多計算機科學家所預期的要復雜得多,而且醫院系統的功能本身就不是很完善。
2019年3月,KHN發布的一項調查發現,患者的用藥清單、實驗室檢查和過敏有時會出現危及生命的錯誤。
Cho說,許多AI開發人員會剔除電子健康記錄,因為它們包含了大量的詳細數據。但是這些開發人員通常沒有意識到他們的AI是在一個不健全的系統上構建的,電子健康記錄是為計費而不是為患者護理而開發的,并且充滿了錯誤或丟失的數據。
非營利組織洛恩研究所的主席、心臟病學家Vikas Saini博士說,考慮到其中的風險,醫生需要介入,保護病人的利益。
Saini說:“企業家的工作要有遠見、敢于冒險,而醫生的工作是保護患者。”
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。