锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

本文作者：喬燕薇

2022-04-21 14:17

導語：隱私計算，是不是目前數據安全的最優解？

2022年4月，由雷峰網《醫健AI掘金志》主辦的醫療隱私計算·云峰會開幕，從技術普及與案例剖析的初衷出發，邀請一批隱私計算企業CXO，討論隱私計算的技術路線和在醫療場景下的實際應用前景，共話產業的未來趨勢。

锘崴科技創始人、董事長王爽教授發表了題為《隱私計算賦能醫療健康大數據價值流轉》的演講，就醫療大數據隱私保護的背景、醫療大數據安全共享解決方案與底層技術、醫療大數據隱私保護的應用場景等話題進行了分享。

王爽教授是四川大學華西醫院特聘教授、同濟大學附屬醫院客座教授。回國之前，王爽教授在美國加州大學圣地亞哥分校UCSD醫學院做教職。

過去十余年，王爽教授及其團隊一直專注醫療大數據隱私保護相關研究。2014年，王爽教授創辦了目前最早也是規模最大的iDASH國際隱私保護計算大賽；2017年，牽頭成立了國際同態加密標準委員會，推動制定相關國際標準。

王爽教授表示，醫療大數據的隱私安全保護需要進行全局性的思考。

“首先，我們要弄清楚數據的類型是什么，數據在哪里，由誰在用以及如何在用，從而實現對數據整體安全的保護。在保護過程中，我們既需要滿足合規的能力，又需要數據保護的能力。

他認為，隱私計算正是一種能夠輔助實現從形式合規到實質合規的全流程醫療大數據安全的技術手段，并且它是目前最優技術解。

以下為王爽教授的演講內容，雷峰網(公眾號：雷峰網)《醫健AI掘金志》作了不改變原意的編輯及整理。

醫療大數據要“放得開”，又要“管得住”

數據正加速向“生產要素”轉化。

近些年，國家層面相繼出臺了數據要素化市場配置的政策文件，今年4月10日又推出了加快建設全國統一大市場的相關意見，這些政策都明確要加快培育數據要素市場，建立健全數據安全、權利保護、跨境傳輸管理、交易流通、共享開放、安全驗證等基礎制度和標準規范，深入開展數據資源調查，推動數據資源開發利用。

在地方層面上，多個省、市也推出了聚焦數據要素領域的相關法律法規，并主導成立地方數據交易中心，推動數據要素實現市場化，加快數據資源共享開放進程。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

在數據要素市場發展過程中，存在著一系列問題和挑戰。

首先，是法律合規風險。明文數據一旦可見就可能被無限復制，同時暴露數據中所包含的個人敏感信息，以及數據所對應的某個用戶或數據提供方的商業機密。

其次，是數據的不可控。數據一旦被泄露或復制，將導致超范圍使用甚至被轉賣，無法控制其用途、用量，因此也存在數據濫用的風險。

此外，當明文數據被濫用，打破市場供需關系后，會導致數據價值無法定價，也無法形成“要素化”的概念，無法產生大規模的市場流通，數據要素的價值也將無法充分體現。

在國家層面上，數據隱私保護也受到重視，法律法規日趨嚴格。

2021年9月正式施行的《數據安全法》提出國家將對數據實行分類分級保護，開展數據活動須履行數據安全保護義務、承擔社會責任。

2021年11月正式施行的《個人信息保護法》明確要求保護個人信息權益，規范個人信息處理活動，保障個人信息依法有序自由流動，促進個人信息合理使用。

如何在數據開發利用與安全保護上實現平衡？既要能“放得開”，又要“管得住”，傳統的數據中心化模式已經不適應當前市場需求，需要引入新技術、新方法適應數據在共享、開放、利用中的隱私保護問題。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

傳統數據隱私保護是采用脫敏的方式。

但脫敏后的數據并不等于匿名化數據。過往研究發現，美國HIPPA Safe Harbor脫敏后的數據中，每15000人里依舊有兩個病人的信息可能會被恢復。

2020年，我們與國家癌癥中心合作，完成了全國最大規模的脫敏數據風險評估，橫跨34個省、市、自治區、直轄市，共涉及7000多萬病人的脫敏信息，其中大約0.01%病人的脫敏信息，能夠結合背景知識恢復出病人的身份。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

因此，脫敏只是對數據的保護與約束，并不等于完全沒有風險，它只能夠將風險控制在一個較低的范圍內。此外，數據脫敏很難有效處理醫學相關的基因數據、影像數據的隱私保護。

根據《個人信息保護法》規定，匿名化數據是指經過處理后無法識別出自然人的數據。參照前例，脫敏數據并不等價于匿名化數據，所以同樣受到《個人信息保護法》的保護。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

因此，醫療大數據的隱私安全需要進行全局性的思考。首先，我們要弄清楚數據的類型是什么，數據在哪里，由誰在用以及如何在用，從而實現對數據整體安全的保護。

在保護過程中，我們既需要滿足合規的能力，又需要數據保護的能力。

所謂合規能力，是指從數據采集源頭保證其合規性，對此，現有法律對包括知情授權、數據使用協議、數據使用范圍等在內的要求都有明確的規定。

同時在使用過程中對數據進行分級分類，通過數據日志監控匹配是否存在超范圍使用，使用后需要進行數據安全審計與可信存證。

在這個過程中，需要一些技術手段來保證從數據采集到使用的合規性，隱私計算正是一種能夠輔助實現從形式合規到實質合規的全流程醫療大數據安全的技術手段，并且它是目前最優技術解。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

實現數據“可用不可見”的聯合分析

醫療大數據安全共享解決方案包括幾個層面，首先是支持安全合規高效。通過隱私保護計算結合區塊鏈等其他技術，提供安全合規高效的醫療大數據，在“可用不可見”的情況下融合多源數據，實現聯合分析。

其次是支持醫療監管決策。通過結合區塊鏈實現數據使用全流程可追溯、可監管，對數據的用途、使用方、使用期限、使用范圍等都能進行非常細致的控制與監管，為監管部門決策提供數據支撐。

第三是支持醫療數據開放。通過醫療大數據價值轉化平臺，實現醫療數據跨醫院甚至是跨境合作。

通過以上幾個目標，該方案還可以支持醫療產業應用，形成圍繞醫療產業的聚合，包括在科研、制藥以及保險等相關領域的應用。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

醫療大數據安全共享解決方案具備幾個核心能力，第一是隱私合規的多維檢測。

在醫療大數據從形式合規到實質合規的過程中，對數據知情授權、使用協議、數據的使用范圍、數據使用后的銷毀等環節進行自動化檢測，保證全流程的數據合規，這是醫療數據使用中的先決條件。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

另一個核心能力則是數據的分級分類。對不同級別和不同類型的數據，我們可以采取不同的安全措施，充分利用不同技術能力范圍滿足法律監管的需求和敏感信息保護的需求。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

這里涉及到隱私保護計算。我們經常提到的隱私保護計算有四個類型的底層技術。

其中一種技術是聯邦學習（FL），是指在各個數據源不需要分享個體數據的情況下，通過交換統計信息完成多中心的聯合計算，實現“數據不動模型動”的虛擬數據融合。

聯邦學習的安全假設條件是在不交換個體數據的情況下，只需要交換一些統計信息。然而，在很多情況下這些明文的統計信息通過推理或者逆向工程的方式，可能推演出數據源的敏感信息，造成隱私泄露。

基于以上考慮，我們提出了安全聯邦學習的概念，通過結合聯邦學習、同態加密、多方安全計算、可信執行環境等技術，實現數據建模過程中的數據隱私保護。數據源本身，個體信息交換的統計量，模型的梯度，最后生成的全局模型，以及統計分析的結果，都可以在密態下完成計算，并且只有授權用戶才能夠拿到對應密鑰，獲得計算結果。

除了聯邦學習外，還有一些其他的輔助技術，比如上文中介紹到的同態加密（HE），它是一種基于軟件的密碼學技術，能夠在加密數據上進行運算。同態加密技術在密文下所做的加法和乘法運算完全等價于在明文下進行計算，因此一些計算任務能夠在密文下利用同態加密技術完成，從而保護原始數據的隱私安全。

同態加密設計之初是用來解決數據的外包服務問題，包括數據的儲存外包與計算外包。

數據擁有方將自己的數據利用同態加密進行加密后，將私鑰保留在自己手中，將公鑰加密后的數據放到公有云之類的第三方，即可進行儲存或計算。當有多個計算方或多個數據源參與時，則需要第三方生成密鑰。

多方參與情況下的密鑰管理問題，正對應我們上文所說的基于數據分級分類采用不同安全級別的保護措施。

多方安全計算（MPC）是指多個數據參與方以亂碼電路或秘密分享的方式，在不需要交換明文數據的情況下，共同完成某項計算的密碼學解決方案。

其中最常用的是基于亂碼電路實現的安全兩方計算，超過兩方的計算則通常以秘密分享的方式實現。

在多方安全計算中，基本的安全假設是參與方是不能進行竄謀。因此如果在某些應用場景中參與計算的幾方之間不足以信任，可能會存在竄謀風險，那么多方安全計算就不適用。也就是說，對于非常機密的數據，仍需要其他的額外技術提供保護。

可信執行環境（TEE）是指在基于硬件防護能力的隔離環境中進行計算，實現數據安全和隱私保護功能。在CPU或GPU空間中形成的隔離區域中運行的代碼、程序、數據均不受外界干擾，只有授權用戶方可使用。

可信執行環境提供了一套驗證機制，使用戶能夠遠程確定所使用的可信執行環境安全性，以及確保在可信執行環境中運行的代碼和數據的完整性和安全性，從而實現對某些敏感數據在隱私保護的情況下進行運算。

可信執行環境的優點在于，基于硬件模式，與同態加密和多方安全計算相比能夠支持更大規模的復雜運算。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

在上述四個不同技術領域中，我們都完成了一些早期工作。

在聯邦學習領域，最早在2012年我們將聯邦學習應用于在線多中心醫療數據在“可用不可見”情況下的聯合分析，后面會介紹一個相關的案例。

之后聯邦學習也被谷歌應用到移動互聯網領域，以及被微眾銀行應用到金融科技領域。

可信執行環境最早于2009年提出，大規模的商業化應用則是2015年底英特爾發布支持SGX功能的CPU之后。

我們是全球最早與英特爾達成深度合作的兩個機構之一，通過可信執行環境完成了全球首例多中心跨國罕見病研究，榮獲了英特爾杰出貢獻獎。

同態加密領域的概念早在上世紀七八十年代就已提出，但是直到2009年，第一個全同態算法（即可做密文下做加法和乘法運算的算法）被Craig Gentry提出。

我們團隊在2015年首次將同態加密應用到多中心罕見病研究中，解決了基于同態加密的多中心情況下的基因數據比對和統計分析問題。

2017年，我與ISO、美國國家標準局（ANSI）、IBM和微軟等機構共同創辦了國際同態加密標準委員會，推進同態加密相關標準制定。

多方安全計算中最著名的是姚期智教授提出的百萬富翁問題，它解決了安全的兩方計算，之后在1987年被拓展到多方計算。我們在2016年將多方安全計算技術結合聯邦學習運用到了國家級醫療網絡數據共享過程中。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

對于應用平臺架構，我們涉及到醫療機構云、數據中心、省市健康云、專病網絡等數據提供方，支持結構化數據、非結構化數據、處方數據、基因數據、影像數據等不同類型的數據，同時也支持衛健委等相關監管機構可通過區塊鏈進行數據使用全流程的監管和審批。

在對外輸出能力上，支持臨床相關應用、大健康應用、健康管理、公共衛生以及科研制藥等不同方面的應用。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

醫療大數據隱私保護的應用場景

醫療大數據隱私保護的場景和應用有以下幾種。

一種是多中心目標條件隱私查詢。一個病人或者一批病人在醫院的臨床數據，結合基因檢測中心的基因數據或者影像中心的影像數據，可以實現多模態模型研發。

在不同機構之間進行病人數據匹配時，在縱向聯邦學習中，我們要跨不同的醫院、機構，找到同一批病人的數據進行支持；在橫向聯邦學習中，提高樣本量時需進行去重，去掉在多個中心里面可能重復的病人，避免重復的病人記錄影響模型建立。

除了精準匹配外，模糊匹配在醫療領域中亦有應用。臨床實驗入組時，需選擇參考組和被試組，不同的組別對應不同條件，此時需使用模糊查找，根據某一模型和權重，基于用戶的不同生理指標，判斷這個用戶是否滿足某一個入組條件，找到相關目標用戶。這是多中心目標查找的隱私計算在醫療領域的主要應用。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

另一個常見的應用是多中心隱私數據分析、建模及推理。在某些疾病研究中，單體大數據的數據量或者單個醫院的數據維度是不夠的，我們需要更大的樣本量提高模型的統計效果，或者實現更精準的病人畫像，因此需要結合多個中心進行聯合計算。

這個過程中，如果不直接交換個體數據，使用隱私計算即可實現在數據“可用不可見”的情況下，通過虛擬數據融合實現多中心建模。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

醫療大數據隱私保護的典型案例

接下來，介紹我們在醫療大數據隱私保護領域做過的案例。

下圖是我們在2012年開始做的全球首創的隱私保護超大規模醫療科研網絡，通過隱私計算覆蓋了美國3000多萬病人，這些病人來自17個醫療系統，覆蓋200多家醫院。

我們做的是比較效果研究。具體來說是，探究不同藥物對于同一個病人，或是不同手術方法、器械對于同一種病人所產生的不同效果，從而幫助制定更好的臨床指南；

探究同一藥物對于不同并發癥的病人產生的效果，或是同一個藥物不同劑量時的相關效果或副作用，以及藥物適應癥的擴展。這些場景可以通過基于多中心的研究實現更大樣本量、更具有統計意義的結果。

但醫療機構受限于隱私保護政策的限制，以及醫院自身對于數據安全的顧慮，無法直接形成大規模數據遷移，將數據都匯總到公共區域。

于是我們通過聯邦學習方式，將計算節點部署到各個醫院，然后通過一個中心節點將比較效果研究的請求發送到各個計算節點，在本地完成運算后，通過交換加密統計信息完成基于大規模數據的臨床研究。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

基于在國外完成的成功案例，我們在國內也將相關的研究范式應用到了不同的癌癥領域，下圖案例是我們在消化外科領域的嘗試。

我們橫跨24個省、直轄市、自治區的60多家醫院，覆蓋數萬名相關病人，在數據庫中進行上述比較效果研究，有關不同的器械、術式對胃癌、腸癌等消化外科病人治療過程中的復發癥以及生存率等分析，能夠更好地為臨床治療提供幫助，同時也為藥廠與器械廠商在相關藥物器械的研發提供臨床證據。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

下圖是我們2016年做的隱私保護跨國罕見病分析項目。

罕見病的痛點有兩個，一是由于其罕見性，許多醫生缺乏足夠的經驗在第一時間做出正確診斷。由于醫生缺乏對罕見病的了解，容易出現誤診現象。

本案例中研究的罕見病是川崎病。川崎病主要發病人群是兒童，癥狀包括發燒、草莓舌、眼睛發紅、身上起疹子等，大多數情況下會被誤診為與發燒相關的疾病，錯過最佳治療時間。

如果不能及時治療，60~70%的患兒可能會發展成嚴重的心臟并發癥，甚至危及生命。但是，如果能夠在患病早期完成診斷，就可以針對此病癥有非常好的干預和治療方法。

罕見病的第二個痛點是每家醫院的數據量都極少，難以通過單體數據源實現對于罕見病致病基因的研究。

通過多中心合作可以找到滿足樣本量的病人數目，從而幫助醫生能夠更好地確定與疾病相關的致病位點。類似于新冠疫情中使用核酸檢測快速定位某個人是否感染新冠病毒。

如果能夠找到罕見病基因與疾病的相關性，即可設計試劑盒或臨床輔助診斷系統，幫助醫生進行罕見病診斷，在患病早期進行干預和治療。

此外，由于是罕見病，基因變異位點通常比較罕見，因此敏感性也更高，這些病人的數據隱私需受到更好的保護。

基于以上幾點，我們通過隱私計算為兒童罕見病，特別是川崎病提供了整套解決方案。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

我們聯合美國雷迪兒童醫院、英國帝國理工學院以及新加坡基因研究所，通過虛擬化容器的方式，在每家醫院的數據中心進行了本地計算節點的部署，本地計算節點通過虛擬化容器將底層跟川崎病相關的疾病數據，包括基因數據和表型數據接入系統，即可實現本地計算。

將本地計算生成的統計信息進行加密，在密態下完成全局模型構建，通過反復交互實現統計模型訓練，獲得最終結果，從而基于大樣本獲取更具有統計意義的信息。

在三個國家的多所醫院中，共找到250個滿足條件的家庭。研究中，共使用了150個個體數據，每個個體有70萬個基因變異位點，可在秒級內完成跨國隱私保護研究。

這項研究成果獲得了英特爾杰出貢獻獎，并發表于核心生物學期刊。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

基于在國外的研究成果，我們回國完成了全國首例基于隱私保護的跨多個省市的全基因組分析系統。

其中涉及的疾病是強直性脊柱炎。通過基因分析，我們能夠盡早確定某些基因變異位點與強直性脊柱炎的相關性，進行疾病的早期預測和診斷，從而實現更早干預、治療，減緩病情。

在這項研究中也遇到了之前類似的問題——單體醫院的數據量非常有限。我們與清華大學、四川大學華西醫院、上海長征醫院、鄭州大學第一附屬醫院、安徽醫科大學第一附屬醫院5所機構合作，將锘崴信一體機部署到醫院信息科，然后醫院將相關數據接入一體機，在防火墻后完成本地病人基因數據和表型數據分析。

每家醫院都提供了將近1000例的患者與非患者數據，我們組成了參考組和被試組做對比性分析。

研究成果體現在以下幾方面。

首先，我們驗證了計算精度。在實驗數據上，虛擬數據可以實現等價于中心式計算。在計算時間上，由于多個中心可以同時并行計算，等價于將數據集中后的明文計算。雖然計算在密文下運行，但是效率依舊非常高。

同時，該研究也驗證了獲得的疾病位點與中心計算完全一致。由于通過隱私計算觸達到了更多的數據源，我們實現了高一個數量量級的統計意義，研究成果獲得上海市科技進步獎一等獎。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

此外，我們也做了一些其他應用，比如通過隱私計算幫助兒童罕見病網絡進行帶有隱私保護的查詢和臨床輔助診斷系統的應用，通過隱私計算實現對于輸入系統的患兒基因信息、臨床診斷信息等查詢條件的保護。

我們提供了一套自然語言處理（NLP）工具，能夠將非結構化的醫囑信息進行自然語言處理，提取出與表型相關信息，將其映射到人類表型本體（HPO）上。

通過以上結構化數據，即可在加密狀態下與全國范圍內罕見病病人的數據進行匹配。

匹配過程并非簡單的精準匹配，而是在不同基因位點對應不同權重和表型相關性的情況下完成匹配，最終返回加密結果，告知醫生或患者基于當前的基因和表型可能確診的疾病或是潛在疾病。

在整個查詢過程中，查詢條件與查詢結果不存留在被查詢方，同時也保護了被查詢方的數據和匹配模型，實現雙盲下的數據查詢。

锘崴科技王爽：醫療大數據隱私保護，如何從「形式合規」到「實質合規」？

除以上應用外，我們還將隱私計算應用到了新發和突發傳染病智慧化多點預警突發系統中。

如今，疫情在多地爆發。如果能夠借助于大數據，將病人在不同醫院的就診數據、軌跡信息、藥房購藥信息、病人自主上報的信息、病人在互聯網上搜索的信息構建一個多點觸發預警的深度學習模型，就可以在突發傳染病剛剛萌發時實現早期干預。

然而在實際應用中，由于數據隱私、數據實時性、大數據計算資源等諸多限制，上述各種數據往往無法簡單匯總到一個數據中心實現中心化的模型構建和決策。

通過隱私計算技術在不同的數據源部署計算節點，即可充分利用分布在不同地方的數據，在隱私計算下基于更多維度的信息構建預警模型。

基于預警模型，我們利用實時觀測到的數據進行預警，有助于衛健委等部門進行傳染病的管理和管控。

此外，醫健AI掘金志也上線了王爽教授的演講視頻，感興趣的朋友可以關注公眾號醫健AI掘金志，對話框回復關鍵詞“王爽”，即可回看。雷峰網雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

喬燕薇

主筆

關注醫療科技領域。微信號：qiaoyw186

掃描關注作者微信

發私信

當月熱門文章