數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

本文作者： camel

2019-09-11 20:22

導語：提出至今才兩年哦~

雷鋒網AI科技評論按：近日，聯邦學習概念的提出者之一 Blaise Agu?ray Arcas 在韓國針對全球做了一個關于聯邦學習的在線workshop。

Blaise Agu?ray Arcas是2014年加入的谷歌，在此之前在微軟任杰出工程師。加入谷歌后，Blaise領導了谷歌設備端on-device機器智能（Machine Intelligence）項目，同時負責基礎研究與新產品研發工作。

聯邦學習的概念最初是由Blaise等人于2017年在Google AI Blog上發表的一篇博文中首次提出的。這個概念提出至今不過兩年時間，但對它的研究已然甚囂塵上，幾乎每天都至少會發布一篇相關論文，甚至在18年底在港科大楊強教授等人的推動下聯邦學習進入了IEEE國際標準。

聯邦學習之所以能夠在如此短的時間里迅速由一個構想變為一門學科，主要原因在于聯邦學習技術作為一種學習范式，能夠在確保用戶數據隱私的同時解決“數據孤島”問題。

不過不同于國內主要關注企業之間針對“數據孤島”的聯邦學習，Blaise 等人（或許也在某種程度上代表谷歌）關注更多的則是設備上的聯邦學習，這也是聯邦學習概念被提出之初的應用場景。

數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

1. 提出聯邦學習的初始動力

Blaise五年前加入谷歌后不久，便開始了聯邦學習的研究。直到2017年，當他們取得了一定的成果，才在博文中進行公布。

一開始，聯邦學習只是一個概念，但很快它便被開發成人工智能領域中的一個學科。現在已經有數千篇的文章在討論聯邦學習。在今年12月份在溫哥華舉行的機器學習頂會 NeurIPS上也將會有一個專題專門討論聯邦學習。另一方面，現在也有很多公司也在以此為基礎構建他們的模型。這說明整個人工智能社區已經開始重視這種技術了。

那么為什么聯邦學習能夠如此快速地被整個社區重視呢？

大家應該知道，目前人工智能已經發展到了這樣一個節點：我們希望能夠用少量的數據做更多的工作。這也是當前人工智能的核心話題之一。

神經網絡可以做很多的認知，語言處理、語音合成、圖像識別，甚至還可以下圍棋，這些都能達到人類甚至超越人類的水平，這是過去幾年我們取得的成就。但是目前的神經網絡相比人類還欠缺一點，就是學習的效率，它需要大量的數據進行訓練。所以一些大公司，如谷歌、微軟、亞馬遜等開始提供人工智能服務時需要收集大量的數據，才能去訓練大型神經網絡。這也是一直以來，整個社區所做的事情。

對于設備端（例如手機）的智能應用，通常情況下的模式是，用戶在設備上產生的數據會被上傳到服務器中，然后由部署在服務器上的神經網絡模型根據收集到的大量數據進行訓練得到一個模型，服務商根據這個模型來為用戶提供服務。隨著用戶設備端數據的不斷更新并上傳到服務器，服務器將根據這些更新數據來更新模型。很明顯這是一種集中式的模型訓練方法。

然而這種方式存在幾個問題：1）無法保證用戶的數據隱私，用戶使用設備過程中產生的所有數據都將被服務商所收集；2）難以克服網絡延遲所造成的卡頓，這在需要實時性的服務（例如輸入法）中尤其明顯。

Blaise等人便想，是否可以通過做一個大型的分布式的神經網絡模型訓練框架，讓用戶數據不出本地（在自己的設備中進行訓練）的同時也能獲得相同的服務體驗。

數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

2. 設備上的聯邦學習

解決之道便是：上傳權重，而非數據。

我們知道神經網絡模型是由不同層的神經元之間連接構成的，層與層之間的連接則是通過權重實現的，這些權重決定了神經網絡能夠做什么：一些權重是用來區分貓和狗的；另一組則可以區分桌子和椅子。從視覺識別到音頻處理都是由權重來決定的。神經網絡模型的訓練本質上就是在訓練這些權重。

那么Blaise提出的設備端聯邦學習，不再是讓用戶把數據發送到服務器，然后在服務器上進行模型訓練，而是用戶本地訓練，加密上傳訓練模型（權重），服務器端會綜合成千上萬的用戶模型后再反饋給用戶模型改進方案。

數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

舉例來說，輸入法是典型的智能推薦應用。當人們使用Google鍵盤Gboard給家人朋友發信息的時候，傳統來說你敲擊鍵盤的數據會被上傳到谷歌的服務器，他們通過收集大量數據來訓練一個更加符合用戶習慣的智能推薦。但在應用聯邦學習后，用戶敲擊鍵盤的數據將永遠保留在本地。用戶的手機中有一個不斷更新的模型會根據這些數據進行學習和更新，并將更新的權重加密上傳到服務器。服務器收到大量用戶的模型后，會根據這些模型進行綜合訓練，并反饋給用戶進行模型更新和迭代。

數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

這里或許值得強調，這種在設備端上的模型是經壓縮過的，而非像服務器中那種大型神經網絡模型。因此模型訓練的耗能是非常小的，幾乎檢測不到。此外，Blaise講了一個非常形象的比喻，即人會在睡覺的時候通過做夢來更新自己的大腦認知系統；同樣設備終端的系統也可以通過閑置時進行模型訓練和更新。所以整體上，這并不會對用戶的使用體驗造成任何影響。

我們將設備上聯邦學習的過程總結一下：1）設備端下載當前版本的模型；2）通過學習本地數據來改進模型；3）把對模型的改進，概括成一個比較小的更新；4）該更新被加密發送到云端；5）與其他用戶的更新即時整合，作為對共享模型的改進。

數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

整個過程有三個關鍵環節：1）根據用戶使用情況，每臺手機在本地對模型進行個性化改進；2）形成一個整體的模型修改方案；3）應用于共享的模型。該過程會不斷循環。

其優點是顯而易見的。

首先，我們不必將數據上傳到云端，服務提供商就看不到用戶的數據，這可以提高用戶數據的隱私性。因此，通過這種方式，我們不必在隱私和功能之間進行權衡，可以兩者兼有。這一點在當下數據隱私越來越受到重視的情況下特別重要。

其次，是降低了延時。盡管5G時代即將到來，但并不是在任何情況下任何地點的網速都能得到保障。如果將用戶所有的數據都上傳到云端，且服務本身也是從云端進行的反饋，那么在網速較慢的環境下，網絡延時將會極大降低用戶體驗。而聯邦學習加持下的服務則不會出現這種情況，因為服務本身就來自于本地。

當然，或許還有一個好處是，在傳統的方法下，用戶只是人工智能的旁觀者——我使用，但我沒參與。而在聯邦學習場景下，每個人都是“馴龍高手”，每個人都是人工智能發展的參與者。

數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種應用廣闊的學習新范式

3. 學習新范式

聯邦學習的這種思想，事實上并不僅僅適用于設備用戶數據的隱私保護和模型更新。我們將設備用戶抽象來看，視作數據的擁有者，可以是手機持有者，也可以是公司、醫院、銀行等；而服務器或云端視作模型共享綜合平臺。

因此，聯邦學習更是一種新的學習范式，它有以下特點：

· 在聯邦學習的框架下，各參與者地位對等，能夠實現公平合作；

· 數據保留在本地，避免數據泄露，滿足用戶隱私保護和數據安全的需求；

· 能夠保證參與各方在保持獨立性的情況下，進行信息與模型參數的加密交換，并同時獲得成長；

· 建模效果與傳統深度學習算法建模效果相差不大；

· 聯邦學習是一個「閉環」的學習機制，模型效果取決于數據提供方的貢獻。

這樣的特點正中當前人工智能發展所面臨的困境。

當前，大多數應用領域均存在數據有限且質量較差的問題，在某些專業性很強的細分領域（如醫療診斷）更是難以獲得足以支撐人工智能技術實現的標注數據。

同時，在不同數據源之間存在難以打破的壁壘，除了少數幾家擁有海量用戶、具備產品和服務優勢的「巨無霸」公司外，大多數企業難以以一種合理合法的方式跨越人工智能落地的數據鴻溝，或者對于他們來說需要付出巨大的成本來解決這一問題。

此外，隨著大數據的發展，重視數據隱私和安全已經成為一種世界性的趨勢，而歐盟「數據隱私保護條例」（General Data Protection Regulation，GDPR）等一系列條例的出臺更是加劇了數據獲取的難度，這也給人工智能的落地應用帶來了前所未有的挑戰。

從目前的研究進展來看，聯邦學習也是解決以上這些問題的唯一選擇。

雷鋒網注：關于聯邦學習在國內的進一步發展，可以參考雷鋒網之前發表的文章《從概念到技術，再到國際標準和開源社區，聯邦學習只用兩年時間》。值得一提的是，關于「聯邦學習」的名字有一個故事：在早期國內將「Federated Learning」大多翻譯為「聯合學習」，現多稱為「聯邦學習」。其中的區別是，如果用戶是個人，確實是把他們的模型「聯合」起來學習，正如Blaise 等人所做的工作；而如果用戶是企業、銀行、醫院等大數據擁有者，這種技術則更像是將諸多「城邦」結合起來，「聯邦」一詞則更為準確。這一名字的變化，也反映著聯邦學習的研究主體從理論轉向實際應用的變化趨勢。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。