摘要:本文稍微回顧一下傳統遷移算法的流程、特性和局限之處,然后文章介紹幾種解決當源域數據有某些訪問限制的場景下實現遷移的算法。具體包括:ADDA-CVPR2017,FADA-ICLR2020,SHOT-ICML2020。
本文介紹一種特殊場景下的遷移算法:隱私保護下的遷移算法。首先,本文稍微回顧一下傳統遷移算法的流程、特性和局限之處,然后文章介紹幾種解決當源域數據有某些訪問限制的場景下實現遷移的算法。具體包括:ADDA-CVPR2017,FADA-ICLR2020,SHOT-ICML2020。
傳統遷移算法UDDA
首先說明這里說的傳統遷移算法,主要指深度域適應(Deep Domain Adaptation),更具體的是無監督深度域適應(Unsupervised Deep Domain Adaptation, UDDA)。因為UDDA是最為常見,也是大家廣泛關注的設定,因此這方面的工作遠遠多於其余遷移算法的設定。
先介紹一下UDDA具體是做什么的:給定一個目標域(Target Domain),該域只有無標記數據,因此不能有監督地訓練模型,目標域通常是一個新的局點、場景或者數據集;為了在目標域無標記數據的情況下建立模型,可以借助源域(Source Domain)的知識,源域通常是已有局點、場景或者數據集,知識可以是源域訓練好的模型、源域的原始數據、源域的特征等。
借助有標記信息的源域,目標域上即便沒有標記數據,也可以建立一個模型。使得該模型對目標域數據有效的關鍵難點在於源域和目標域存在數據分布的差異,稱之為域漂移(Domain Shift),如何去對齊源域和目標域的數據是UDDA解決的主要問題。
UDDA通常包含下面的三種框架:
首先,源域和目標域的數據(圓柱)會經過特征提取器(Encoder)提取特征(矩形),然后各種辦法會對源域和目標域的特征進行操作,使得源域和目標域上數據的特征對齊。這里值得一提的是,UDDA通常假設源域和目標域的類別是一樣的,比如源域和目標域都是去分類0-9十個手寫數字,只不過源域和目標域的手寫風格不一樣。
對源域和目標域特征進行操作的辦法包括三種類別:
- 基於統計對齊:使用各種統計量對齊源域和目標域特征的分布,比如對齊核空間均值(MMD Loss)、對齊協方差矩陣(CORAL Loss)等;
- 基於對抗對齊:建立一個域分類器(Domain Classifier)作為判別器(Discriminator),目的要盡可能將源域和目標域的特征區分開來,使用梯度反轉(Gradient Reversal Gradient,GRL)可以促使特征提取器提取和領域無關(Domain Invariant)的特征;
- 基於重構對齊:將源域和目標域的特征通過同一個生成網絡進行生成相應的數據,通過假設只有分布接近的樣本才可以使用同一個網絡生成數據對齊源域和目標域特征。
關於以上幾種UDDA的具體算法可以參加以前的文章:
https://zhuanlan.zhihu.com/p/205433863zhuanlan.zhihu.com
這里本文只給出UDDA的幾個特性:
- 源域數據可獲得:UDDA假設源域數據存在並且可以獲得;
- 源域目標域數據可混合:UDDA通常假設源域和目標域數據可以在一起處理,即可以放在同一個設備上進行運算;
- 訓練預測過程是Transductive的:目標域數據必須和源域數據一同訓練才可以使得特征提取器提取領域無關的特征,才可以將源域的模型遷移到目標域,因此當一批新的目標域的數據到來的話,並不能直接使用源域模型進行預測。
總的來說,傳統的UDDA方法假設源域數據可獲得、源域目標域數據可混合、訓練過程Transductive。然而,有一些場景下,源域數據不可獲得,或者源域數據不可以外傳,這種情況下如何進行遷移呢?
首先,這里需要注意的是,源域數據不能外傳和源域數據不可獲得是兩種情況,前者假設源域數據存在,但是不可以和目標域數據放在一起,后者是源域數據根本就不存在了。
ADDA
ADDA是CVPR2017的一篇工作,來自論文《Adversarial Discriminative Domain Adaptation》。
回歸正題,ADDA的訓練流程圖如下:
首先是預訓練階段(Pre-training Stage),源域上利用有標記數據訓練,采用交叉熵損失:
重復以上兩步,直到收斂。
FADA
正如上述介紹的CVL組,Xingchao Peng將ADDA擴充到多域版本,並且提出了FADA。FADA來自ICLR2020的《Federated Adversarial Domain Adaptation》,論文首頁截圖如下:
該文提出了一個新的場景FADA,即聯邦學習下的多域遷移。假設有很多個源域,每個源域的數據分布在單獨的設備上,原始數據不能外傳,如何在這種情況下將其模型復用到目標域呢?簡而言之,如何在數據不能被發送出去的約束下進行特征對齊呢?
FADA總的框架圖如下,該框架融合了很多方法,還包括特征解耦(Feature Disentangle)等等,這里不過多介紹。
總的來說,FADA將多個源域和目標域的特征發送到一個指定的設備,在該設備上訓練一個域判別器,然后將域判別器下發到各個源域作為對抗項促使相應的特征提取器提取領域無關的特征。可以說,FADA是ADDA的多領域擴展版本。
SHOT
SHOT是比較有意思的一篇工作,名稱是《Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation》,來自ICML2020,作者信息截圖如下:
如果說ADDA和FADA都是假設源域數據不可以被發送出設備的話,SHOT假設源域數據獲取不到,即源域數據丟失或者不存在。
那么在只有源域模型和目標域眾多無標記數據的情況下,如何遷移呢?SHOT解決了這個問題。首先SHOT指的是Source Hypothesis Transfer,Source Hypothesis指的是源域模型的分類器。SHOT和ADDA有一個一致的地方就是,都固定住了源域模型的分類器,微調源域的特征提取器。ADDA通過對抗損失(假設可以訪問到源域數據的特征)進行微調目標域特征提取器,而SHOT則是通過偽標簽(Pseudo Label)自監督地訓練。
以上就是標簽精煉的過程,主要是指使用目標域樣本的關系(聚簇結果)來對偽標簽進行進一步調整,而不僅僅是利用模型的預測結果。
打了偽標簽之后,模型可以根據交叉熵損失進行訓練,綜合IM損失,可以將模型性能提升至很高。
總結
總結一下,傳統UDDA以及本文主要介紹的ADDA、FADA和SHOT可以使用下圖來區分:
作者信息截圖如下:
一作Eric Tzeng來自於加利福尼亞大學伯克利分校,代表作有DDC和ADDA;二作Judy Hoffman來自斯坦福大學,代表作CyCADA,以及多篇在多領域遷移方面的理論文章,比如NeurIPS 2018的《Algorithms and Theory for Multiple-Source Adaptation》;三作Kate Saenko是波斯頓大學計算機科學計算機視覺組(Computer Vision and Learning Group,CVL)的Leader,是一名女性學者,Baochen Sun,Xingchao Peng,Kuniaki Saito等人都在該組深造或者深造過。
CVL代表作有(個人評定,以下文章個人在學習DA的過程中或多或少閱讀或者研究過):
- Xingchao Peng, Zijun Huang, Yizhe Zhu, Kate Saenko: Federated Adversarial Domain Adaptation. ICLR 2020
- Xingchao Peng, Yichen Li, Kate Saenko: Domain2Vec: Domain Embedding for Unsupervised Domain Adaptation. ECCV (6) 2020: 756-774
- Shuhan Tan, Xingchao Peng, Kate Saenko: Generalized Domain Adaptation with Covariate and Label Shift CO-ALignment. CoRR abs/1910.10320 (2019)
- Xingchao Peng, Zijun Huang, Ximeng Sun, Kate Saenko: Domain Agnostic Learning with Disentangled Representations. ICML 2019: 5102-5112
- Xingchao Peng, Qinxun Bai, Xide Xia, Zijun Huang, Kate Saenko, Bo Wang: Moment Matching for Multi-Source Domain Adaptation. ICCV 2019: 1406-1415
- Kuniaki Saito, Donghyun Kim, Stan Sclaroff, Trevor Darrell, Kate Saenko: Semi-Supervised Domain Adaptation via Minimax Entropy. ICCV 2019: 8049-8057
- Kuniaki Saito, Yoshitaka Ushiku, Tatsuya Harada, Kate Saenko: Adversarial Dropout Regularization. ICLR (Poster) 2018
- Xingchao Peng, Ben Usman, Neela Kaushik, Dequan Wang, Judy Hoffman, Kate Saenko: VisDA: A Synthetic-to-Real Benchmark for Visual Domain Adaptation. CVPR Workshops 2018: 2021-2026
- Eric Tzeng, Judy Hoffman, Kate Saenko, Trevor Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971
- Baochen Sun, Kate Saenko: Deep CORAL: Correlation Alignment for Deep Domain Adaptation. ECCV Workshops (3) 2016: 443-450
- Baochen Sun, Jiashi Feng, Kate Saenko: Return of Frustratingly Easy Domain Adaptation. AAAI 2016: 2058-2065
- Eric Tzeng, Judy Hoffman, Trevor Darrell, Kate Saenko: Simultaneous Deep Transfer Across Domains and Tasks. ICCV 2015: 4068-4076
參考文獻
- Eric Tzeng, Judy Hoffman, Kate Saenko, Trevor Darrell: Adversarial Discriminative Domain Adaptation. CVPR 2017: 2962-2971
- Xingchao Peng, Zijun Huang, Yizhe Zhu, Kate Saenko: Federated Adversarial Domain Adaptation. ICLR 2020
- Jian Liang, Dapeng Hu, Jiashi Feng: Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation. CoRR abs/2002.08546 (2020)
本文分享自華為雲社區《[技術干貨]隱私保護下的遷移算法》,原文作者:就挺突然。