0
雷鋒網 AI科技評論按,伴隨著最近幾年的機器學習熱潮,遷移學習 (Transfer Learning)也成為目前最炙手可熱的研究方向。遷移學習強調通過不同領域之間的知識遷移,來完成傳統機器學習較難完成的任務。它是解決標定數據難獲取這一基礎問題的重要手段,也是未來更好地研究無監督學習的重要方法。
在近日雷鋒網 AI研習社的公開課上,來自中國科學院計算技術研究所的在讀博士王晉東帶來了題為《遷移學習的發展和現狀》的分享。
王晉東,現于中國科學院計算技術研究所攻讀博士學位,研究方向為遷移學習和機器學習等。他在國際權威會議ICDM、UbiComp等發表多篇文章。同時,也是知乎等知識共享社區的機器學習達人(知乎用戶名:王晉東不在家)。他還在Github上發起建立了多個與機器學習相關的資源倉庫,成立了超過120個高校和研究所參與的機器學習群,熱心于知識的共享。個人主頁:http://jd92.wang
分享內容:
各位聽眾各位同學大家晚上好,很榮幸收到雷鋒網 AI研習社的邀請,這次的主題是《遷移學習的發展及現狀》。

我是中國科學院計算技術研究2014級直博生王晉東,主要研究方向是遷移學習及其應用,下面是我的一些基本資料。今天主要是來分享知識,歡迎大家批評指正。

今天主要分為五部分。一是遷移學習的基本介紹,即為什么要用遷移學習;二是遷移學習方法的常見分類;三是把遷移學習與深度學習結合起來的研究;四是遷移學習的一些最新進展;五是學習資源的推薦以及總結。

遷移學習基本介紹
先做一個小小的引子,吳恩達曾經說過,遷移學習將會是機器學習的下一個驅動力。

我們先來看一下背景:在智能大數據時代,面對數據量以及數據類型的不斷增加,需要能快速構建具有強泛化能力的機器學習模型。大部分數據往往沒有標注,收集標注數據或者從頭開始構建模型,代價高昂且費時。這時候就產生了一個問題:如何基于已有的數據和模型,對新數據快速構建相應的模型?

這個問題引出了遷移學習,遷移學習可以解決上述標定數據難以獲取的問題。
遷移學習基本思想是利用學習目標和已有知識之間的相關性,把知識從已有的模型和數據中遷移到要學習的目標上去,如下圖中所示。目前,遷移學習已被廣泛應用于機器學習的許多應用中。 
從數據、模型和應用這三個角度來說,遷移學習都很有必要。



總的來說,遷移學習可以減少對標定數據的依賴,通過和已有數據模型之間的遷移,更好地完成機器學習任務。

遷移學習常見方法分類
下面是遷移學習的集中方法,目前常用的主要是同構和異構遷移學習,最常用的是下圖右邊的幾種方法。

先看基于實例的遷移學習方法。假設是源域中的一些數據和目標域會共享很多共同的特征。方法是對源域進行instance reweighting,篩選出與目標域數據相似度高的數據,然后進行訓練學習。

下面為大家介紹幾個經典的基于實例的遷移學習方法,方法比較簡單,容易實現。

第二是基于特征的遷移學習方法。
假設是源域和目標域含有一些公共的交叉特征,方法是通過特征變換,將兩個域的數據變換到同一特征空間,然后進行學習。

下面是幾種比較經典的方法。

第三種是基于模型的遷移學習方法。
特點是模型相同部分直接進行遷移,好處是可以直接把已有的模型拿來用,針對目標任務做相應的修改。

代表工作有下面幾個比較經典的,優點是充分利用模型之間的相似性。

最后是基于關系的遷移學習方法,可以由師生關系類比上下級關系,也可以從生物病毒的傳播規律類比計算機病毒的傳播。

假設是如果兩個域是相似的,那么它們會共享某種相似關系。方法是利用源域學習邏輯關系網絡,再應用于目標域上。這部分的研究工作比較少。

深度遷移學習
下面來分析深度遷移學習。深度學習可以學習到更魯棒的、泛化能力更強的特征表達,遷移學習能學習到領域無關的特征表達,這和深度學習不謀而合,將兩者結合,能充分利用神經網絡的表達能力,學習域不變的特征表示。

下面看下最近的一些工作,14年有一篇論文探討了神經網絡的可遷移性,橫軸是層數,縱軸是精度。

第二篇也是14年的,這篇文章是在AlexNet的分類器層前加入domain loss層,目前引用量也比較多。

15年發表的DAN網絡對AlexNet網絡的后三層都進行了域適配,還利用了Multi-kernel MMD進行距離度量,這是核心的亮點貢獻。

17年的ICML提出了JAN網絡,兩個核心貢獻如下:一是聯合適配x和y的分布(JMMD度量),二是在網絡中加入了adversarial學習。

這個工作加了soft labels,同時進行domain和task transfer,網絡看起來比較復雜,大家可以看原文,也可以看我的專欄鏈接。

ADDA提出用adversarial的思想去進行domain adaptation,這篇文章也特別新,代碼也開源了。

以上介紹都是我認為的比較經典的方法,是目前來說在深度遷移學習里面比較好的工作。
遷移學習的最新進展
下面來談談遷移學習的最新發展。做遷移學習最重要的點是找到相似度,當源域和目標域相似度減少,如何進行成功遷移呢。15年的Transitive transfer learning給我們在這個領域開辟了道路。17年的Distant domain transfer learning是對15年的論文的延伸。

第二個比較新的進展是利用物理學知識輔助學習任務。實驗效果是實線部分,作者的想法非常具有開創性。

第三個是學習遷移。我的理解是把遷移學習和增量學習進行結合,作者提出從已有的知識里自動學習比較適合的算法和參數,這個很有前瞻性,也非常有意義。

學習資源推薦及總結
下面給大家推薦一些學習資源,前面是比較經典的兩個綜述,第一個是楊強老師的。下面也給大家推薦一些比較知名的學者、會議、期刊等。最后是我的GitHub,在持續更新,我的知乎專欄是《小王愛遷移》,歡迎大家投稿。

今天主要是希望大家了解到遷移學習,知道遷移學習的常用方法,大概了解到深度遷移學習以及一些最新的方向。

視頻:
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。