文章內容主要整理自Sinno Jialin Pan and Qiang Yang的論文《A survey on transfer Learning》。
1 遷移學習提出的背景及歷史
1.1、遷移學習提出背景
在機器學習、深度學習和數據挖掘的大多數任務中,我們都會假設training和inference時,采用的數據服從相同的分布(distribution)、來源於相同的特征空間(feature space)。但在現實應用中,這個假設很難成立,往往遇到一些問題:
1、帶標記的訓練樣本數量有限。比如,處理A領域(target domain)的分類問題時,缺少足夠的訓練樣本。同時,與A領域相關的B(source domain)領域,擁有大量的訓練樣本,但B領域與A領域處於不同的特征空間或樣本服從不同的分布。
2、數據分布會發生變化。數據分布與時間、地點或其他動態因素相關,隨着動態因素的變化,數據分布會發生變化,以前收集的數據已經過時,需要重新收集數據,重建模型。
這時,知識遷移(knowledge transfer)是一個不錯的選擇,即把B領域中的知識遷移到A領域中來,提高A領域分類效果,不需要花大量時間去標注A領域數據。遷移學習,做為一種新的學習范式,被提出用於解決這個問題。
1.2 遷移學習發展歷史
遷移學習的研究來源於一個觀測:人類可以將以前的學到的知識應用於解決新的問題,更快的解決問題或取得更好的效果。遷移學習被賦予這樣一個任務:從以前的任務當中去學習知識(knowledge)或經驗,並應用於新的任務當中。換句話說,遷移學習目的是從一個或多個源任務(source tasks)中抽取知識、經驗,然后應用於一個目標領域(target domain)當中去。
自1995年以來,遷移學習吸引了眾多的研究者的目光,遷移學習有很多其他名字:學習去學習(Learning to learn)、終身學習(life-long learning)、推導遷移(inductive transfer)、知識強化(knowledge consolidation)、上下文敏感性學習(context-sensitive learning)、基於知識的推導偏差(knowledge-based inductive bias)、累計/增量學習(increment / cumulative learning)等。
2 遷移學習中的符號及概念的定義
2.1、符號定義
領域(domain)和任務(task)定義:
領域由兩個部分組成:特征空間(feature space)X和特征空間的邊緣分布P(x),其中,x={x1,x2......xn} 屬於X。如果兩個領域不同,它們的特征空間或邊緣概率分布不同。領域表示成D={X,P(x)}。
任務組成:給定一個領域D={X,P(x)}的情況下,一個任務也包含兩個部分:標簽空間Y和一個目標預測函數f(.)。一個任務表示為:T={Y,f(.)}。目標預測函數不能被直接觀測,但可以通過訓練樣本學習得到。從概率論角度來看,目標預測函數f(.)可以表示為P(Y|X)。任務表示成T={Y,P(Y|X)}
一般情況下,只考慮只存在一個source domain Ds 和一個target domain Dt的情況。其中,源領域Ds = {(xs1,ys1),(xs2,ys2)......(xsns,ysns)},xsi 屬於Xs,表示源領域的觀測樣本,ysi屬於Ys,表示源領域觀測樣本xsi對應的標簽。目標領域Dt = {(xt1,yt1),(xt2,yt2).......(xtnt,ytnt)},xti屬於Xt,表示目標領域觀測樣本,ysi屬於Yt,表示目標領域xti對應的輸出。通常情況下,源領域觀測樣本數目ns與目標領域觀測樣本數目nt存在如下關系:1<= nt << ns。
2.2、遷移學習定義
基於以上的符號定義,給出正式的遷移學習的定義:在給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ds 不等於Dt或Ts不等於Tt,情況下;遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。
通過以上的定義可以發現:
1)、領域D=(X,P(x)),當源和目標領域D不同時,存在兩種情況:(1)Xs不等於XT,源領域和目標領域的特征空間不同;(2)P(xs)不等於P(xt),即源空間和目標空間的特征空間相同,但觀測樣本X的邊緣分布不同。
2)任務T={Y,P(Y|X)},當源和目標領域T不同時,存在兩種情況:(1)Ys不等於Yt,源領域的標簽空間與目標領域的標簽空間不同;(2)P(Ys|Xs)不等於P(Yt|Xt),即源領域和目標領域的條件概率分布不同。
3 遷移學習的分類
3.1、遷移學習的研究問題
在遷移學習領域有三個研究問題:(1)、遷移什么;(2)、如何遷移;(3)、什么時候遷移。
1)遷移什么:那一部分知識可以在多個領域或任務之間遷移,即多個領域或任務知識的共同部分,通過從源領域學習這部分共同的知識,提升目標領域任務的效果。
關注遷移什么知識時,需要注意negative transfer問題:當源領域和目標領域之間沒有關系,卻要在之間強制遷移知識是不可能成功的。極端情況下,反倒會影響目標領域任務學習的效果,這種情況稱為負遷移(negative transfer),需要盡力避免。
2)找到了遷移什么,接下來需要解決如何遷移:怎么做知識遷移。什么時候遷移:在什么情況下、什么時候,可以做知識的遷移。
3.2、轉導學習與推導學習區別
推導學習(inductive learning)與轉導學習(tranductive learning)的區別:
推到學習:需要先用一些樣本(training set)建立一個模型,再基於建立好的模型去去預測新的樣本(testing set)的類型。以分類為例,推到學習就是一個經典的貝葉斯決策,通過貝葉斯共識:P(Y|X)=P(X|Y)*P(Y)/ P(X),建立后驗概率分布P(Y|X),進而預測測試樣本類別。缺點就是必須先建立一個模型,很多時候建立效果好的模型並不容易,特別是當帶標記的訓練樣本少、無標記的測試樣本非常多時。那么能否直接利用大量無標記的測試樣本來識別樣本類別呢?由此產生了轉到學習方法。
轉導學習:不需要建立后驗概率模型,直接從無標記的測試樣本X出發,構建P(X)的分布,對測試樣本分類。與推到學習相比,轉到學習也有它的缺點:因為是直接基於P(X)處理,轉導學習的測試樣本必須預先已知。
3.3、基於定義的遷移學習分類
基於遷移學習的定義中源領域和目標領域D和任務T的不同,遷移學習可以分成三類:推導遷移學習(inductive transfer learning),轉導遷移學習(tranductive transfer learning)和無監督遷移學習(unsupervised transfer learning)
1、推導遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts不等於Tt,情況下;推導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。
可見,在推導遷移學習中,源任務(source task)與目標任務(target task)一定不同,目標領域Dt與源領域Ds可以相同,也可以不同。在這種情況下,目標領域需要一部分帶標記的數據用於建立目標領域的預測函數ft(.)。根據源領域中是否含有標記樣本,可以把推導遷移學習分為兩個類:
(1)、當源領域中有很多標記樣本時,推導遷移學習與多任務學習(multitask learning)類似。區別在於,通過從源領域遷移知識,推導遷移學習只注重提升目標領域的效果;但多任務學習注重同時提升源領域和目標領域的效果。
(2)當源領域沒有標記樣本時,推導遷移學習與自學習類似。
2、轉導遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts等於Tt、Ds不等於Dt,情況下;轉導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。此外,模型訓練師,目標領域Dt中必須提供一些無標記的數據。
可見,在轉導遷移學習中,源任務Ts和目標任務Tt相同,但領域Ds與Dt不同。這種情況下,源領域有大量標記樣本,但目標領域沒有標記樣本。根據Ds和Dt的不同,可以把轉到學習分為兩個類:(1)、源領域和目標領域特征空間不同,即Xs不等於Xt。(2)、特征空間相同,但邊緣概率不同,即P(xs)不等於P(xt)。在(2)情況下,轉導遷移學習與領域適應性(domain adaptation)、協方差偏移(covariate shift)問題相同。
3、無監督遷移學習定義:給定源領域Ds和源領域學習任務Ts、目標領域Dt和目標領域任務Tt的情況,且Ts不等於Tt、標簽空間Yt和Ys不可觀測,情況下;轉導遷移學習使用源領域Ds和Ts中的知識提升或優化目標領域Dt中目標預測函數ft(.)的學習效果。
在無監督遷移學習中,目標任務與源任務不同但卻相關。此時,無監督遷移學習主要解決目標領域中的無監督學習問題,類似於傳統的聚類、降維和密度估計等機器學習問題。
由此可以得到遷移學習的分類,以及和其他機器學習方法之間的關系圖1所示。

圖1 基於定義的遷移學習分類
3.4、基於遷移的內容分類
根據遷移的內容,遷移學習可以分為四類:
基於實例的遷移學習(instance-based transfer learning):源領域(source domain)中的數據(data)的某一部分可以通過reweighting的方法重用,用於target domain的學習。
基於特征表示的遷移學習(feature-representation transfer learning):通過source domain學習一個好的(good)的特征表示,把知識通過特征的形式進行編碼,並從suorce domain傳遞到target domain,提升target domain任務效果。
基於參數的遷移學習(parameter-transfer learning):target domain和source domian的任務之間共享相同的模型參數(model parameters)或者是服從相同的先驗分布(prior distribution)。
基於關系知識遷移學習(relational-knowledge transfer learning):相關領域之間的知識遷移,假設source domain和target domain中,數據(data)之間聯系關系是相同的。
前三類遷移學習方式都要求數據(data)獨立同分布假設。同時,四類遷移學習方式都要求選擇的sourc doma與target domain相關,
表1給出了遷移內容的遷移學習分類:

表1 基於遷移內容的遷移學習分類
將基於定義遷移學習分類和基於遷移內容的遷移學習分類結合,得到遷移學習分類結果如表2所示:

表2 基於定義遷移學習分類和基於遷移內容的遷移學習分類結合
從表2可以發現,遷移學習大多數的研究工作都集中於推導遷移學習和轉導遷移學習上,無監督的遷移學習模式,在未來會吸引更多研究者關注。
4、遷移學習的應用
用於情感分類,圖像分類,命名實體識別,WiFi信號定位,自動化設計,中文到英文翻譯等問題。
5、領域自適應
領域自適應(Domain Adaptation)是遷移學習中的一種代表性方法,詳細關系見下圖。
領域自適應問題定義為:源域(source domain)和目標域(target domain)共享相同的特征和類別,但是特征分布不同,如何利用信息豐富的源域樣本來提升目標域模型的性能。源域表示與測試樣本不同的領域,具有豐富的監督標注信息;目標域表示測試樣本所在的領域,無標簽或者只有少量標簽。源域和目標域往往屬於同一類任務,但是分布不同。

此圖源自楊強大佬的文章《A Survey on Transfer Learning》。
另外wiki上的Domain Adaptation詞條也有類似的圖片描述:

參考論文:
[1] A survey on transfer Learning. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 22, NO. 10, OCTOBER 2010
[2] Learning to Learn. S. Thrun and L. Pratt, eds. Kluwer Academic Publishers, 1998.
[3] R. Caruana, “Multitask Learning,” Machine Learning, vol. 28, no. 1, pp. 41-75, 1997.
[4] R. Raina, A. Battle, H. Lee, B. Packer, and A.Y. Ng, “Self-Taught Learning: Transfer Learning from Unlabeled Data,” Proc. 24th Int’l Conf. Machine Learning, pp. 759-766, June 2007.
[5] H. Daume´ III and D. Marcu, “Domain Adaptation for Statistical Classifiers,” J. Artificial Intelligence Research, vol. 26, pp. 101-126, 2006.
[6] B. Zadrozny, “Learning and Evaluating Classifiers under Sample Selection Bias,” Proc. 21st Int’l Conf. Machine Learning, July 2004.
[7] H. Shimodaira, “Improving Predictive Inference under Covariate Shift by Weighting the Log-Likelihood Function,” J. Statistical Planning and Inference, vol. 90, pp. 227-244, 2000.
[8] W. Dai, Q. Yang, G. Xue, and Y. Yu, “Self-Taught Clustering,” Proc. 25th Int’l Conf. Machine Learning, pp. 200-207, July 2008.
[9] Z. Wang, Y. Song, and C. Zhang, “Transferred Dimensionality Reduction,” Proc. European Conf. Machine Learning and Knowledge Discovery in Databases (ECML/PKDD ’08), pp. 550-565, Sept. 2008.
https://www.cnblogs.com/jinjidexuetu/p/11097626.html