機器學習的重新思考：人工智能如何學習“失憶”？

本文作者：我在思考中

2022-04-06 10:22

導語：如何讓訓練好的模型遺忘掉特定數據訓練效果, 以達到保護模型中隱含數據的目的？

作者丨Samuel Greengard

編譯丨維克多

機器學習已經成為各行各業的寶藏工具，常被用來構建系統，幫助人們發現那些容易忽略的細節，并輔助決策。盡管已經取得了驚艷的結果，但是也有很多痛苦，例如如何在已經成型的模型中修改、刪減某些模塊或者數據記錄？

有學者表示，在大多數情況下，修改往往意味著重新訓練，但仍然無法避免納入可疑數據。這些數據可能來自系統日志、圖像、客戶管理系統等等。尤其是歐洲GDPR出臺，對模型遺忘功能提出了更高的要求，企業如果不想辦法將會面臨合規處罰。

確實，完全重新訓練的代價比較高，也不可能解決敏感數據問題。因此，我們無法證明重新訓練的模型可以完全準確、有效。

為了解決這些問題，學者們定義了一種“機器學習解除術”（machine unlearning），通過分解數據庫、調整算法等專門技術，誘導模型選擇性失憶。機器學習解除術，顧名思義，就是讓訓練好的模型遺忘掉特定數據訓練效果/特定參數, 以達到保護模型中隱含數據的目的。

打破模型

機器學習之所以有魅力，是因為它能透過龐大的數據，超出人類認知范圍的復雜關系。同時，這項技術的黑盒性質，讓學者在修改模型時候，非常謹慎，畢竟無法知道一個特定的數據點處在模型的哪個位置，以及無法明確該數據點如何直接影響模型。

另外一種情況是：當數據出現異常值時，模型會記得特別牢，并對整體效果產生影響。

當前的數據隱私工具可以在數據脫敏的情況下訓練模型，也可以在數據不出本地的情況下聯合訓練。或許可以將敏感數據替換成空值，引入噪聲掩蔽敏感數據。但這些都無法從根本上解決問題。甚至，替代元素并保留關鍵數據的差異隱私技術也不足以解決選擇性遺忘問題。例如它只能在單個案件或少數幾個案件中發揮作用，在這些案件中，雖然不需要重新訓練，但會有“敏感”的人要求從數據庫中刪除數據。隨著越來越多的刪除請求陸續到來，該框架的“遺忘模型"很快就會瓦解。

因此，隱私技術和機器學習解除術在解決問題的層面，并不能等同。

匿名無法驗證和差分隱私技術的數據刪除問題不僅是理論問題，而且會產生嚴重的后果。研究人員已經證明，人們總是有能力從所謂的通用算法和模型中提取敏感數據。例如2020年時候，學者發現，從GPT-2中可以獲得包括個人身份和受版權保護的信息等訓練數據。

機器學習的重新思考：人工智能如何學習“失憶”？

選擇性遺忘

讓機器學習模型獲得選擇性遺忘的能力，需要解決兩個關鍵問題：

1.理解每個數據點如何機器學習模型；

2.隨機性如何影響空間。例如需要弄清，在某些情況下，數據輸入中相對較小的變化為何會產生不同的結果。

該方向的最初研究出現在在2019年。當時，Nicolas Papernot提出將機器學習的數據分割成多個獨立的部分，通過建立眾多的迷你數據，從而實現只對特定組件進行刪除和再訓練，然后插回完整的數據集中，生成功能齊全的機器學習模型。

機器學習的重新思考：人工智能如何學習“失憶”？

具體操作過程是：先將訓練數據分成多個不相交的切片，且一個訓練點只包含在一個切片中；然后，在每個切片上單獨訓練模型；隨后，合并切片，成功刪除數據元素。因此，當一個訓練點被要求遺忘時，只需要重新訓練受影響的模型。由于切片比整個訓練集更小，就減少了遺忘的代價。

該方法被Nicolas Papernot命名為SISA（Sharded, Isolated, Sliced, and Aggregated ），對比完全重訓練和部分重訓練的基線, SISA實現了準確性和時間開銷的權衡。在簡單學習任務中, 在數據集Purchase上是4.63x, 在數據集 SVHN上是2.45x。

同時，作者也承認，雖然這個概念很有前途，但也有局限性。例如，通過減少每個切片的數據量，會對機器學習產生影響，并且可能會產生質量較低的結果。此外，這項技術并不總是像宣傳的那樣奏效。

目前，機器學習遺忘術的研究仍處于初級階段。隨著研究人員和數據科學家深入了解刪除數據對整體模型的影響，成熟的工具也會出現，其目標是：機器學習框架和算法允許學者刪除一條記錄或單個數據點，并最終得到一個“完全遺忘“相關數據的有效模型。

參考鏈接：

https://cacm.acm.org/magazines/2022/4/259391-can-ai-learn-to-forget/fulltext#FNA

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章