參考論文:A Survey on Transfer Learning
1、Introduction
在機器學習和數據挖掘中有一個很普遍的假設就是訓練數據和測試數據來源於統一特征空間並服從相同的分布。而當測試數據分布發生改變之后,我們又不得不從新收集同分布的訓練數據並從新訓練模型。這在真實的應用中去從很難去重新收集數據並建模,而且給原始數據人工標簽的代價也很昂貴。在這些情況下,遷移學習可以很好的解決這些問題。
什么是遷移學習?用一句話概述就是基於已有的知識可以更快的學習新的知識。例如一個人會下象棋就會更容易地學會下圍棋,一個人會說英語也就更容易學會西班牙語等。遷移學習強調的是在不同但是相似的領域、任務和分布之間進行知識的遷移。
遷移學習能應用的場景也很多。例如網絡文檔分類,我們將網絡中的文檔分入到預設定的幾個類別中。我們用當時的網絡文檔打上標簽訓練分類模型,而對於現在新的網絡文檔,其數據特征和分布可能和當初訓練模型時的訓練數據不同,此時新的網絡文檔分類就會不准確。而從新收集訓練數據並訓練模型的成本又非常高,這種情況下,遷移學習就能很有幫助。另一個例子,我們在對相機的評價做情感分類時,不同品牌的相機的評價數據可能服從不同的分布,然而在訓練模型時,我們又無法收集所有品牌的相機的評價數據,並打上相應的標簽,這樣的成本是很高的。通常情況下我們可以收集幾種品牌的相機的評價數據並打上標簽,用這些帶標簽的數據訓練模型,之后可以通過遷移學習的方式將其遷移到其他品牌相機的情感分類問題上。
2、Overview
傳統的機器學習和數據挖掘算法都是基於有監督或無監督訓練后的統計模型來預測。無論怎樣,在傳統的機器學習中我們都認為訓練數據和預測數據是服從同分布的。遷移學習其實和多分類問題有點類似,不過多分類問題是講所有的任務同時進行的,即使這些任務的分布狀態不同。而遷移學習可以根據早期的任務來應用到新的任務上。關於傳統機器學習和遷移學習的區別如下圖所示:

在上圖中,傳統的機器學習是講源任務和目標任務放在一起同時學習的,而對於遷移學習是先學習源任務,然后從源任務中抽取相關的知識遷移到目標任務上。在這里的目標任務有個特點就是可用的訓練數據非常小,僅僅用目標任務自身的數據訓練出的模型泛化能力非常差。
在這里我們引入域的概念,域的表達式如下 $D={\chi, P(X)}$ ,其中 $\chi$ 表示特征空間,$P(X)$ 表示邊緣概率分布。引入源域 $D_S$ 和目標域 $D_T$ 的概念。且源域的大小要遠遠大於目標域。當源域和目標域的特征空間存在一些關系時,我們就認為這兩個域是相關的。
在遷移學習中主要有三個問題:
1)遷移什么?
2)怎么遷移?
3)什么時候該遷移?
“遷移什么”是說在從源任務中遷移知識到目標任務時,哪些知識是可以遷移的?一般認為在源域中存在兩種類型的知識,一種是源域特有的知識,一種是源域和目標域通用的知識,一般遷移的都是這類通用的知識。確定遷移的知識之后,就是“怎么遷移?”,也就是用什么算法進行知識的遷移。
“什么時候該遷移?”,確切的說就是在哪些場景下需要應用遷移學習,一般來說只有在源任務和目標任務之間存在相關性的時候才可以進行遷移學習。而在不相關的時候進行遷移時不會有任何效果,甚至可能會造成“負遷移”的后果。
基於上面關於遷移學習的定義,作者總結了不同場景下的遷移學習和傳統機器學習的關系,具體如下表所示:

如上表所示,作者將遷移學習分為三種應用場景:Inductive Transfer Learning;Unsupervised Transfer Learning;Transductive Transfer Learning
1)Inductive Transfer Learning
在該場景下,源任務和目標任務分布不同但相關。該場景下需要根據目標域中少量可用的數據構建預測模型。該場景和多分類任務有點類似,知識遷移學習通過在源任務中提取相關的知識來提高目標任務的預測率,而在多分類任務中是將源任務和目標任務一起訓練。
2)Unsupervised Transfer Learning
非監督遷移學習旨在解決聚類、密度估計等問題。
3)Transductive Transfer Learning
在該場景下,源域和目標域分布不同但是相關,而且有兩種不同的情況:
a)源域和目標域的特征空間不同;
b)源域和目標域的邊緣概率分布不同;
上述的三種場景下的遷移學習和相關應用領域的關系如下表所示:

上述的三種場景下的遷移學習可以被歸結為四個案例中,具體如下表所示

上述表中四種案例分別是:
1)基於樣本的遷移學習
源域中某一部分的數據通過施加權重后(相關性強的樣本給予高權重),可以直接用來添加到目標域中直接學習目標任務,Tradaboost 算法就是這種類型的遷移學習。
2)基於特征的遷移學習
源域中數據的部分特征和目標域中相同,不如有一個貓狗的分類器可以用來遷移學習不同品種狗的分類器。
3)基於參數的遷移學習
源任務和目標任務共用相同參數的模型。或者是共用部參數或先驗分布。
4)基於相關性的遷移學習
認為源域和目標域中的數據之間是具有相關性的遷移方式。
下表描述了四種不同案例可以使用的遷移方法。可以看到具體的案例可以用哪些遷移學習方法來解決。

