域自適應學習是一種源任務和目標任務一樣,但是源域和目標域的數據分布不一樣,並且源域有大量的標記好的樣本,目標域則沒有(或者只有非常少的)有標記的樣本的遷移學習方法——感覺和核函數類似


域自適應學習(Domain Adaptation Learning)能夠有效地解決訓練樣本和測試樣本概率分布不一致的學習問題,是當前機器學習的熱點研究領域,在自然語言處理,文本分析,生物信息學,跨語言分析,視頻分析,情感分析和手寫體識別等領域有廣泛應用。 [1]

 首先Domain Adaptation基本思想是既然源域和目標域數據分布不一樣,那么就把數據都映射到一個特征空間中,在特征空間中找一個度量准則,使得源域和目標域數據的特征分布盡量接近,於是基於源域數據特征訓練的判別器,就可以用到目標域數據上。

領域自適應簡述
Domain Adaptation是一種源任務和目標任務一樣,但是源域和目標域的數據分布不一樣,並且源域有大量的標記好的樣本,目標域則沒有(或者只有非常少的)有標記的樣本的遷移學習方法。這樣就是怎么把源域上從大量的有標記樣本中學習的知識遷移到目標域上,來解決相同的問題,而目標域上能利用的大多只有沒有標記的樣本。

這里要解釋一下“數據分布不一樣”是什么意思,就比如下圖中(a)組是不同來源的自行車和筆記本電腦的照片,有從購物網站下載的,也有數碼相機拍的生活照,也有網絡上獲取的照片等,它們雖然都表達自行車和筆記本電腦,但是數據分布是不同的。

比如用(b)組的門牌號數據集SVHN去訓練模型,去提取SVNH和MNIST的特征,然后將其可視化到一個平面內,是下圖左邊的樣子,藍色點是源域(SVNH)的樣本,紅色的點是目標域(MNIST)的樣本,也就是說直接在源域上訓練得到的分類器的分類邊界無法很好的區分目標域的樣本。而領域自適應這種遷移學習方法想達到的效果就是下圖右邊這樣,讓源域和目標域中的樣本能對齊,這樣模型就能在目標域上很好的使用了。


4 DA的研究方向
在領域自適應里面也會細分出很多方向。如果源域和目標域距離太大(比如源域是文字,目標域是圖像),就可能需要進程多步的遷移,將這個非常大的遷移划分成一步一步的小段遷移,這就是下圖中的多步領域自適應(Multi-step DA) 通過選擇合適的中間域來轉換成一個個單步領域自適應(One-step DA),這樣就只要去研究單步遷移怎么做。

然后單步遷移又可以根據源域和目標域數據情況可以分成同質(Homogeneous,即數據空間一樣,只是數據分布不一樣)和異質(Heterogeneous,數據空間都不同)兩種。
H o m o g e n e o u s ⇒ X S = X T ,   P ( X S ) ≠ P ( X T ) H e t e r o g e n e o u s ⇒ X S ≠ X T
HomogeneousHeterogeneous⇒XS=XT, P(XS)≠P(XT)⇒XS≠XT
Homogeneous⇒XS=XT, P(XS)≠P(XT)Heterogeneous⇒XS≠XT
Homogeneous
Heterogeneous


接下來,在同質或者異質的DA中又分別可以根據目標域數據的打標簽情況分為監督的、半監督的、無監督的DA。學術界研究最多的是無監督的DA,這個比較困難而且價值比較高。


5 DA方法的種類
傳統的的ML方法是最小化損失:
m i n   1 n ∑ i = 1 n L ( x i , y i , θ ) min \ \frac{1}{n} \sum_{i=1}^{n} L(x_i, y_i, \theta)

基於特征的自適應(Feature Adaption)是將源域樣本和目標域樣本用一個映射Φ \PhiΦ調整到同一個特征空間,這樣在這個特征空間樣本能夠“對齊”,這也是最常用的方法:
m i n   1 n ∑ i = 1 n L ( Φ ( x i s ) , y i s , θ ) min \ \frac{1}{n} \sum_{i=1}^{n} L(\Phi(x_i^s), y_i^s, \theta)

基於實例的自適應(Instance Adaption)是考慮到源域中總有一些樣本和目標域樣本很相似,那么就將源域的所有樣本的Loss在訓練時都乘以一個權重w i w_iw
i

(即表示“看重”的程度),和目標域越相似的樣本,這個權重就越大:
m i n   1 n ∑ i = 1 n w i L ( x i s , y i s , θ ) min \ \frac{1}{n} \sum_{i=1}^{n} w_iL(x_i^s, y_i^s, \theta)

基於模型參數的自適應(Model Adaption)是找到新的參數θ ′ \theta'θ

,通過參數的遷移使得模型能更好的在目標域上工作:
m i n   1 n ∑ i = 1 n L ( x i s , y i s , θ ′ ) min \ \frac{1}{n} \sum_{i=1}^{n} L(x_i^s, y_i^s, \theta')

如果目標域數據沒有標簽,就沒法用Fine-Tune把目標域數據扔進去訓練,這時候無監督的自適應方法就是基於特征的自適應。因為有很多能衡量源域和目標域數據的距離的數學公式,那么就能把距離計算出來嵌入到網絡中作為Loss來訓練,這樣就能優化讓這個距離逐漸變小,最終訓練出來的模型就將源域和目標域就被放在一個足夠近的特征空間里了。

這些衡量源域和目標域數據距離的數學公式有KL Divergence、MMD、H-divergence和Wasserstein distance等。
————————————————
版權聲明:本文為CSDN博主「LauZyHou」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/SHU15121856/article/details/106874558


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM