問題來源:在經典的機器學習中,我們往往假設訓練集和測試集分布一致,但是在實際的問題中,測試環境往往與訓練的數據有較大的差異,出現過擬合問題:在訓練集上訓練結構較好,但是在測試集上的效果不好,因此出現了遷移學習技術。
分布不一致的理解:
領域自適應(Domain Adaptation)
是遷移學習(Transfer Learning)的一種,思路是將不同領域(如兩個不同的數據集)的數據特征映射到同一個特征空間
,這樣可利用其它領域數據來增強目標領域訓練。
領域自適應(Domain Adaptation)是遷移學習中的一種代表性方法,指的是利用信息豐富的源域
樣本來提升目標域
模型的性能。
源域(source domain):與測試樣本不同的領域,但是有豐富的監督信息
目標域(target domain):測試樣本所在的領域,無標簽或者只有少量標簽
源域和目標域往往屬於同一類任務,但是分布不同。
領域適應學習的使用場景:無監督的,有監督的,異構分布和多個源域問題。
三種不同的領域自適應方法:
樣本自適應:其基本思想是對源域樣本進行重采樣
,從而使得重采樣后的源域樣本和目標域樣本分布基本一致,在重采樣的樣本集合上重新學習分類器。(適用於源於和目標域分布差異小的情況)
理解:就是在源域中有一些樣本與目標域的樣本相似,在訓練源域中的樣本的時候乘以一個權重,即與目標域越相似,則該權重越大
特征自適應:其基本思想是學習公共的特征表示,在公共特征空間,源域和目標域的分布要盡可能相同。(適用於對源域和目標域有一定差異的情況)
理解:通過一個映射使源域樣本與目標樣本調整到同一個特征空間
模型自適應:其基本思想是直接在模型層面進行自適應。模型自適應的方法有兩種思路,一是直接建立模型,但是在模型中加入“domain間距離近”的約束,二是采用迭代的方法,漸進地對目標域的樣本進行分類,將信度高的樣本加入訓練集,並更新模型。(適用於源域和目標域差異比較大的情況)
理解:在無監督的自適應中,使用衡量源域和目標域數據的距離的數學公式作為LOSS進行訓練,使得距離縮小。
衡量源域和目標域數據的距離的數學公式:
KL Divergence:度量兩個函數的相似程度或者相近程度
離散型隨機變量:
連續型隨機變量:
maximum mean discrepancy(最大均值差異MMD):對每一個樣本進行投影並求和,利用和的大小表述兩個數據的分布差異
原理:一個隨機變量的矩
反應了對應的分布信息,比如一階中心矩是均值
,二階中心矩是方差
等等
但是均值與方差都相等並不能表示服從一個分布,所以需要更高階的矩來描述分布
MMD的基本思想就是,如果兩個隨機變量的任意階都相同的話,那么兩個分布就是一致的。而當兩個分布不相同的話,那么使得兩個分布之間差距最大的那個矩應該被用來作為度量兩個分布的標准。
兩個分布應該是由任意階來描述:高斯核函數
對應的映射函數恰好可以映射到無窮維上