Domain Adaptable
在經典的機器學習模型中,我們習慣性假設訓練數據集和目標訓練集有着相同的概率分布。而在現實生活中,這種約束性假設很難實現。當訓練數據集和測試集有着巨大差異時,很容易出現過擬合的現象,使得訓練的模型在測試集上表現不理想。
舉個簡單的例子,如果我們喲普大量的黃種人人臉監督訓練數據集,而想訓練得到可以區分黑人人臉的模型,該模型相比於黃種人識別情況性能會下降。當訓練數據集和測試數據集分布不一致的情況下,通過在訓練數據集上按經驗誤差最小准則訓練得到的模型在測試數據集上性能不佳,因此,我們引入了遷移學習技術。
域適應(Domain Adaptation)是遷移學習中比較流行的一個分支,也是我最近閱讀的重點方向。通俗的講,域適應是通過利用訓練數據集訓練得到的知識,提高模型在測試數據集上的表現性能。
域適應中有兩個基礎概念:源域(Source Domain)和目標域(Target Domain)。源域中有着豐富的監督學習信息;目標域表示測試集所在的領域,通常無標簽或者只含有少量的·標簽。源域和目標域往往是同一類任務,但是分布不同。
通過在不同階段進行域適應,研究者提出了幾種不同的域適應方法:
1、樣本自適應:將源域中樣本重采樣,使其分布趨近於目標域分布;
2、特征層面自適應:與一般的將源域映射到目標域方法不同,該類方法將源域和目標域投影到公共特征子空間,進而使得源域上的訓練知識可以直接應用於目標域;
3、模型層面自適應:對源域誤差函數進行修改,考慮到目標與的誤差。
樣本自適應:
其基本思想是對源域樣本進行重采樣,從而使得重采樣后的源域樣本和目標域樣本分布基本一致,在重采樣的樣本集合上重新學習分類器。
樣本遷移(Instance based TL)
在源域中找到與目標域相似的數據,把這個數據的權值進行調整,使得新的數據與目標域的數據進行匹配,然后加重該樣本的權值,使得在預測目標域時的比重加大。優點是方法簡單,實現容易。缺點在於權重的選擇與相似度的度量依賴經驗,且源域與目標域的數據分布往往不同。
特征自適應:
其基本思想是學習公共的特征表示,在公共特征空間,源域和目標域的分布要盡可能相同。
特征遷移(Feature based TL)
假設源域和目標域含有一些共同的交叉特征,通過特征變換,將源域和目標域的特征變換到相同空間,使得該空間中源域數據與目標域數據具有相同分布的數據分布,然后進行傳統的機器學習。優點是對大多數方法適用,效果較好。缺點在於難於求解,容易發生過適配。
鏈接:https://www.zhihu.com/question/41979241/answer/247421889
模型自適應:
其基本思想是直接在模型層面進行自適應。模型自適應的方法有兩種思路,一是直接建模模型,但是在模型中加入“domain間距離近”的約束,二是采用迭代的方法,漸進的對目標域的樣本進行分類,將信度高的樣本加入訓練集,並更新模型。
模型遷移(Parameter based TL)
假設源域和目標域共享模型參數,是指將之前在源域中通過大量數據訓練好的模型應用到目標域上進行預測,比如利用上千萬的圖象來訓練好一個圖象識別的系統,當我們遇到一個新的圖象領域問題的時候,就不用再去找幾千萬個圖象來訓練了,只需把原來訓練好的模型遷移到新的領域,在新的領域往往只需幾萬張圖片就夠,同樣可以得到很高的精度。優點是可以充分利用模型之間存在的相似性。缺點在於模型參數不易收斂。