深度域適應綜述_一般情況與復雜情況(學習筆記)


深度域適應綜述_一般情況與復雜情況(學習筆記)

圖釋

image-20201027105032017

摘要

信息時代產生的大量數據使機器學習技術成功地應用在許多領域。大多數機器學習技術需要滿足訓練集與測試集獨立同分布的假設, 但在實際應用中這個假設很難滿足.。域適應是一種在訓練集和測試集不滿足獨立同分布條件下的機器學習技術。一般情況下的域適應只適用於源域目標域特征空間與標簽空間都相同的情況, 然而實際上這個條件很難滿足。

為了增強域適應技術的適用性, 復雜情況下的域適應逐漸成為研究熱點, 其中標簽空間不一致復雜目標域情況下的域適應技術是近年來的新興方向。隨着深度學習技術的崛起, 深度域適應已經成為域適應研究領域中的主流方法。本文對一般情況與復雜情況下的深度域適應的研究進展進行綜述, 對其缺點進行總結, 並對其未來的發展趨勢進行預測。

概述

機器學習已經在許多領域中成功應用, 但是收集並標注與測試集具有相同分布的樣本的代價是高昂的. 當訓練集和測試集的分布存在差異時, 由訓練集得到的模型不能在測試集上取得良好的預測結果. 遷移學習就是解決訓練集(源域)與測試集(目標域)之間存在分布差異的機器學習方法, 其核心是找到源域和目標域之間的相似性, 並利用相似性將在源域中獲得的知識應用於目標域.

遷移學習按照問題的背景設置可以划分為兩類, 第一類是源域目標域標簽空間和特征空間都相同的域適應, 即一般情況下的域適應, 第二類是復雜情況下的域適應, 其包含多個子方向, 如標簽空間不一致的域適應, 復雜目標域情況下的域適應等. 一般情況下的域適應問題是背景條件約束更嚴格的遷移學習問題. 復雜情況下的域適應問題可以通過對一般情況下的域適應方法改進加以解決。域適應問題是遷移學習領域中的研究重點, 是遷移學習的基本問題.

深度學習是近年來機器學習領域的研究熱點. 深度學習算法從大規模數據中提取知識, 其性能顯著超越傳統機器學習方法. 深度學習取得優異性能的原因在於深度神經網絡具有很強的特征提取能力. 多層的網絡結構意味着可以獲得關於樣本的更高層次的語義信息, 這種信息可以幫助網絡更好地完成任務. 應用在域適應問題中的深度學習方法被稱為深度域適應, 其中心思想是用深度神經網絡對齊源域與目標域的數據分布. 與傳統方法相比, 深度域適應方法獲得的特征不僅有更強的泛化能力還有更好的可遷移性. 深度域適應方法正是在這個背景下興起的.

域適應問題根據目標域有無標簽可以分為有監督域適應和無監督域適應. 無監督域適應方法可以很容易地被擴展應用到有監督域適應中, 因此在域適應領域,無監督域適應方法是研究的重點。本文的寫作線索為從域適應問題開始, 逐步擴展到更加通用的場景, 即復雜情況下的域適應, 其包括標簽空間不一致和復雜目標域情況下的域適應問題。

文章主要內容

本文的主要內容有:

(1)介紹了影響目標域泛化誤差的因素對域適應算法設計的指導作用和抑制負遷移的方法.

(2)對深度域適應方法進行了綜述, 從領域分布差異, 對抗學習, 信息重構和樣本生成四個方面對深度域適應方法的最新進展進行了歸納總結.

(3)由於源域和目標域的標簽空間不一致是現實中的常見現象, 所以本文將標簽空間不一致的域適應方法作為單獨的一節進行綜述.

(4)目標域包含多個子目標域或者目標域不可知是域適應領域中兩個具有挑戰性的問題, 本文對這一類復雜目標域情況下的域適應方法進行了綜述.

(5)對域適應的應用進行了介紹並展示了一部分域適應方法的實驗結果.

(6)對深度域適應方法, 復雜情況下的域適應方法進行了展望和總結

1.遷移學習概述

1.1 遷移學習, 域適應以及深度域適應的形式化定義

遷移學習

遷移學習(Transfer Learning): 給定一個有標簽的源域\(D_s=\{x^s_i,y^s_i\}^{n_s}_{i=1}\) (其中, \(x_i^s\)為樣本, \(y^s_i\)為標簽, 𝑖為樣本索引, \(n_s\)為源域樣本數量)和一個無標簽的目標域\(D_t=\{x^t_j\}^{n_t}_{j=1}\)(其中, \(x^t_j\)為樣本, 𝑗為樣本索引, \(n_t\)為目標域樣本數量).源域目標域數據分布\(p(x^s)\)\(p(x^t)\)不同, 即 \(p(x^s)\neq p(x^t)\). 遷移學習的任務就是利用有標簽的源域數據\(D_s\)學習一個分類器\(f:x \rightarrow y\)來預測目標域數據\(D_t\)的標簽\(y_t \in \mathcal{Y}_t\).

域適應

域適應(Domain Adaptation): 給定一個有標簽的源域\(D_s=\{x^s_i,y^s_i\}^{n_s}_{i=1}\)和一個無標簽的目標域\(D_t=\{x^t_j\}^{n_t}_{j=1}\), 假設它們的特征空間相同, 即\(\mathcal{X}_s=\mathcal{X}_t\), 它們的標簽空間也相同, 即\(\mathcal{Y}_s=\mathcal{Y}_t\)並且條件概率分布也相同, 即\(p(y^s|x^s)=p(y^t|x^t)\). 但是這兩個域的邊緣分布不同, 即 \(p(x^s)\neq p(x^t)\). 域適應算法的任務就是利用有標簽的源域數據\(D_s\)學習一個分類器\(f:x \rightarrow y\)來預測目標域數據\(D_t\)的標簽\(y_t \in \mathcal{Y}_t\).

深度域適應

深度域適應(Deep Domain Adaptation): 給定一個有標簽的源域\(D_s=\{x^s_i,y^s_i\}^{n_s}_{i=1}\)和一個無標簽的目標域𝐷𝑡 = {𝑥𝑗 𝑡 } 𝑗=1 𝑛𝑡 , 假設它們的特征空間相同, 即\(\mathcal{X}_s=\mathcal{X}_t\), 它們的類別空間也相同, 即\(\mathcal{Y}_s=\mathcal{Y}_t\)並且條件概率分布也相同, 即\(p(y^s|x^s)=p(y^t|x^t)\). 但是這兩個域的邊緣分布不同, 即\(p(x^s)\neq p(x^t)\). 深度域適應算法的任務就是利用有標簽的源域數據\(D_s\)學習一個深度神經網絡來預測目標域數據\(D_t\)的標簽\(y_t \in \mathcal{Y}_t\).

域適應與遷移學習的關系

域適應與遷移學習都是在源域目標域邊緣概率分布不同的條件下解決如何使用源域數據來預測目標域數據標簽的問題. 與遷移學習相比, 域適應還需要保證源域目標域的標簽空間和特征空間都相同且條件概率分布相同. 域適應是一種背景條件約束更加嚴格的遷移學習問題. 域適應問題是遷移學習問題的子集. 因為域適應的條件約束更多且域適應方法能夠被稍加改變來適應遷移學習中的其它問題, 所以域適應是當前遷移學習問題的研究重點.

1.2 影響目標域任務性能的因素——泛化誤差

探究影響目標域任務性能的因素十分重要, 清楚各因素與目標域任務性能之間的關系可以指導域適應算法的設計. 模型在目標域上的泛化誤差可以作為衡量目標域任務性能的 標准, 探究影響目標域任務性能的因素也就是探究影響目標域泛化誤差的因素.

影響目標域泛化誤差的因素有三個, 分別是源域泛化誤差, 領域間差異最優聯合泛化誤差. 域適應探索源域和目標域之間的關系, 用在源域中學習到的知識為目標域任務提供支持. 在源域中獲得的知識的質量將影響目標域的任務性能, 知識質量越高, 目標域任務性能越好, 知識質量越低, 目標域任務性能越差. 衡量源域知識質量的一種方式是源域泛化誤差. 源域泛化誤差是影響目標域泛化誤差的因素之一. 源域和目標域之間的相似性表現為源域和目標域數據分布之間的差異. 當源域和目標域的分布差異大時, 在源域獲得的知識向目標域遷移的效果就會降低. 如果域適應方法對齊了源域和目標域的數據分布, 那么源域的知識向目標域遷移的效果就會增強. 領域間差異同樣會影響目標域泛化誤差。

目標域泛化誤差的上界:

image-20201026162210410

其中\(\epsilon_t(h)\)為目標域的泛化誤差,\(\epsilon_s(h)\)為源域的泛化誤差,\(d_{H\Delta H}\)表示域間差異,\(\lambda\)表示最優聯合泛化誤差,\(\mathcal{H}\)表示假設空間,h為假設空間中的某一假設,\(\epsilon_s(h)\)\(d_{H\Delta H}\)\(\lambda\)之和決定了目標域泛化誤差的上界。 式(1)可用於指導域適應算法設計, 降低式(1)右側的任何一項都可以提高域適應的性能.

雖然減少源域泛化誤差\(\epsilon_s(h)\)也可以減少目標域泛化誤差\(\epsilon_t(h)\)的上界,但是這僅是源域中的學習任務, 與知識遷移沒有關系. 例如將特征提取器從淺層網絡替換為深層網絡雖然可以提高源域任務性能, 但並沒有進行知識遷移。所以現在的域適應方法都致力於通過減小域間差異\(d_{H\Delta H}\)來獲得更小的目標域泛化誤差的上界學習領域不變性特征是減少領域間差異\(d_{H\Delta H}\)的一種通用做法。有的文獻表明,除了要對齊源域和目標域的數據分布以外, 還需要考慮源域和目標域的類別信息. 按類別對齊兩個域能進一步減少領域間差異\(d_{H\Delta H}\)

一些文獻訓練源域目標域聯合分類器, 用聯合分類器的錯誤率來近似\(\lambda\)。研究結論是, 知識遷移會導致𝜆增大. 這是因為域適應既破壞了源域特征中的可判別性信息,也破壞了目標域特征中的可判別性信息。在域適應過程中保持特征的可判別性不被破是提高域適應方法性能的一種措施也是域適應問題的一個研究方向。

1.3 負遷移

域適應方法建立在源域和目標域具有相似性的基礎上, 域適應方法尋找兩個域的相似性並將其利用到目標域任務中. 如果不能找到正確的相似性, 從源域遷移到目標域的知識就 會對目標域任務起到負面作用. 這種現象被稱為負遷移. 描述和避免負遷移是域適應研究的關鍵問題之一.

如果源域和目標域之間不具備相似性, 那么就無法根據可遷移性進行樣本選擇. 在這種 情況下, 一些研究提出使用中間域作為橋梁連接分布差異較大的源域和目標域. 這一類方法 被稱為傳遞式域適應方法 .

2 深度域適應

本節中的深度域適應是指使用深度學習技術來解決一般情況下的域適應問題, 即單源域單目標域的無監督同構域適應問題.

對深度神經網絡的可解釋性研究表明網絡的淺層提取模式的基本組成結構, 如圖像中的點, 線, 拐角等特征; 網絡的深層提取與任務相關的高層語義信息. 一個訓練好的網絡的淺層可以作為新任務的初始模型, 這種訓練方式被稱為預訓練. 使用淺層網絡權重初始化一個新任務網絡的訓練方式相當於將已有知識遷移到新的任務中, 這是深度學習在知識遷移中最朴素的應用. Yosinski 等人研究了深度神經網絡的可遷移性, 並提出了兩種知識遷移的方式:一種是用源域網絡淺層權重初始化目標域網絡, 然后以微調方式訓練目標域網絡; 另一種是凍結網絡淺層權重, 從頭訓練目標域網絡深層權重. 這兩種方式都在遷移源域中與基本組成結構相關的知識. 值得注意的是, 微調技術使用到了目標域中帶標簽的樣本, 也就是說微調技術只適用於有監督遷移學習, 而不能用來解決無監督遷移學習. 與微調技術相比, 域適應的重點在於更充分地挖掘源域與目標域的相似性, 並且更靈活地在目標域任務中應用兩個域之間的相似性, 使在源域訓練獲得的知識在目標域任務中發揮更大作用.

根據深度神經網絡在域適應方法中發揮的不同作用, 深度域適應方法可以分為四類: 基於領域分布差異的方法, 基於對抗的方法, 基於重構的方法和基於樣本生成的方法. 這四類深度域適應方法的基本特點列於表 1 中.image-20201026165326405

2.1 基於領域分布差異的方法

由 1.2 小節可知, 領域間差異\(d_{H\Delta H}\)是影響目標域泛化誤差上界的因素之一. 基於領域分布差異的域適應方法通過減少兩個領域間的差異來減少目標域泛化誤差. 基於領域分布 差異的方法根據對分布差異衡量准則的不同又可以分為基於統計准則的方法, 基於結構准則的方法, 基於流形准則的方法和基於圖准則的方法.

2.1.1 基於統計准則的方法⭐⭐⭐

基於統計准則的方法使用均值或者高階矩來度量領域間差異. 常見的距離如下所示。

(1)MMD(Maximum Mean Discrepancy, 最大均值差異)

MMD是最常用的對源域和目標域分布間差異的度量, 對於兩個域\(D_s\)\(D_t\),兩個隨機變量的MMD平方距離為:

image-20201026165955505

其中\(\phi(.)\)是映射,用於把原變量映射到再生核希爾伯特空間(希爾伯特空間是對於函數的內積完備的,而再生核希爾伯特空間是具有再生性的希爾伯特空間。就是比歐幾里得空間更高端的。將平方展開后,RKHS 空間中的內積就可以轉換成核函數,所以最終 MMD 可以直接通過核函數進行計算。理解:就是求兩堆數據在 RKHS 中的均值的距離MMD 的本質是在再生核希爾伯特空間中對齊源域與目標域的樣本均值。

領域適應神經網絡(Domain Adaptive Neural Network, DaNN) , 深度領域混淆方法 (Deep Domain Confusion, DDC)以及深度適配網絡(Deep Adaptation Network, DAN)是最早的一批基於 MMD 的深度域適應方法. 這些方法將 MMD 引入到神經網絡當中, 將源域特征與目標域特征之間的 MMD 作為領域分布間距離度量加入到目標函數當中.

這些方法的優化目標都由兩部分組成: 源域分類誤差\(l_c\)MMD 損失項\(l_d\). 源域分類誤差\(l_c\)幫助網絡學習分類, 而 MMD 損失項\(l_d\)使網絡學習到分布相似的源域特征和目標域特征.

DANN

DaNN 的結構簡單, 共包含兩層: 特征層與分類器層. 由於 DaNN 網絡太淺, 特征表示能力有限, 故遷移知識的能力也十分有限. 雖然 DaNN 只使用了兩層的神經網絡, 兩層的神經網絡並不能被稱作深度神經網絡, 但是, DaNN 是將 MMD 與神經網絡相結合的域適應方法, 它的基本思想與隨后的基於 MMD 的深度域適應方法基本相同.

DDC

DDC使用預訓練好的AlexNet作為特征提取器, 因此與 DaNN 相比, DDC 的特征提取能力有了很大的提升. 但是 DDC 存在許多不足之處. (i),DDC使用線性核計算 MMD, 線性核等價於兩個域的均值匹配, 無法實現對分布的完全匹配. (ii), Yosinski已經指出 AlexNet 的不同層都是可以遷移的, 而 DDC 只適配了一層網絡, 適配程度不夠. (iii), DDC 只采用了單個核計算 MMD, 單一固定的核有可能不是最優的核.

DAN

DAN 基於 AlexNet 搭建, 其網絡結構如下圖所示, 由於 AlexNet 的三個全連接層都偏向於領域專屬, 為提高網絡的遷移能力, DAN 對 AlexNet 的三個全連接層都進行了適 配. 此外, DAN 為了解決如何確定最優核的問題, 提出了多核 MMD, 多核 MMD 使用多個核來構造總核。

image-20201026183304385

(2)CORAL(Correlation Alignment, 關聯對齊距離)

以CORAL作為領域間差異的深度域適應方法通過減小兩個領域協方差矩陣的差異來遷 移知識。CORAL 的定義如下:

\(L_{CORAL}=\frac{1}{4d^2}||C_S-C_T||^2_F\)

其中\(||.||^2_F\)表示矩陣范數的平方,d為特征維度,\(C_S\)\(C_T\)分別表示源域與目標域的協 方差矩陣。 Sun 等人最早將CORAL引入到深度神經網絡中來對齊領域分布. Chen 等人認為在域適應的過程中應該保證特征的可區分性, 故而提出將類內距與類間距作為損失項添加到總的損失目標中. 這個方法保證在域適應后類內距盡可能小而類間距盡可能大, 增強了特征的可區分性。

(3)CMD(Central Moment Discrepancy, 中心距差異)

MMD 的本質是兩個域的所有階統計矩加權和之差. Zellinger 等人根據該結論提出對齊兩個域分布的高階矩來進行知識遷移, 兩個域分布的高階矩之差被稱為 CMD, 其經驗估計為:

\(cmd_K(xs,xt)=frac{1}{(b-a)}|E(x^s)-E(x^t)||_2+\sum\limits_{k=2}\limits^{k}\frac{1}{|b-a|^k}||C_k(x^s)-C_k(x^t)||_2\)

其中,\(C_k(x)=E(x-E(x))^k\)代表樣本的中心距,\(E(x)=\frac{1}{|x|}\sum\limits_{x \in X}x\)是經驗期望,\(x^s\)\(x^t\)分別獨立且且同分布地采樣於緊間隔\([a,b]^{x_s}\)上的\(p(x^s)\)\(p(x^t)\).

(4)Wasserstein Distance(搬土距離)

除了 MMD, CORAL 與 CMD, Wasserstein Distance 也在基於統計准則的深度域適應方法中運用。該距離在一 個度量空間 (M, ρ) 上定義,其中 ρ(x, y) 表示集合 M 中兩個實例 x 和 y 的距離函數,比如 歐幾里得距離。兩個概率分布 \(\mathbb{P}\)\(\mathbb{Q}\)之間的 p-th Wasserstein distance 可以被定義為:

image-20201026192758555

其中\(\Gamma(\mathbb{P},\mathbb{Q})\)是在集合 M × M 內所有的以 \(\mathbb{P}\)\(\mathbb{Q}\)為邊緣分布的聯合分布。與使 用 MMD 的方法類似, 這一類方法通過減小領域間的搬土距離來對齊領域分布

基於統計准則的方法在統計度量最小化的約束下將數據從樣本空間變換到特征空間從而使兩個領域分布差異在特征空間中最小化. 這類方法大多數情況下都可以成功但存在一 些缺陷. 舉一個極端的例子, 如果將所有源域目標域樣本映射到特征空間中的一個點, 源 域目標域分布之間也不存在差異, 但這種映射是沒有意義的, 因為在這個特征空間中, 所 有樣本的特征表示都是相同的, 網絡不能進行分類任務. 針對這個問題, 文獻[52]提出領域間最大統計量差異最小化方法, 網絡中包括兩個特征提取器, 它們在領域差異最小化的約束下分別將源域目標域數據映射到特征空間, 然后混淆網絡將已得到的特征再映射到了一個新的特征空間中去, 並使領域差異在新的特征空間中盡可能大. 在新的特征空間中, 計算兩個領域間差異,並使用該差異與分類損失訓練網絡. 該方法以最小化最大領域差異的方式避免了特征提取器將所有樣本映射到空間中同一點的情況的發生.

基於統計准則的方法以源域和目標域之間的分布距離作為損失函數, 使用深度神經網 絡提取領域不變性特征. 這類方法已經取得了許多研究成果, 發展空間有限. 從提取領域 不變性特征這方面來看, 對抗學習是一個更有發展潛力的方向. 原因是, 一方面, 與設計一個復雜的領域間距離相比, 對抗網絡更加容易實現. 另一方面, 對抗學習避免了人為設計距離, 網絡在訓練的過程中自發地學習兩個領域應該對齊什么以及對齊到什么程度通常能夠獲得更好的效果.

2.1.2 基於結構准則的方法

基於結構准則的方法通過約束網絡參數或者改變網絡結構的方式來達到遷移知識的目 的. 這一類方法大體上是沿着兩個方向進行發展的. 第一, 通過正則項保證源域目標域網 絡參數之間具有相關性. 這種做法是受到域適應問題中數據集特點的啟發而產生的: 源域與目標域數據分布相關, 那么源域網絡與目標域網絡的參數也應具有相關性. 第二. 通過 增設領域專屬的批歸一化層來減小領域之間的差異. 這種做法與基於統計准則的方法具有相似性. 它們都希望得到具有相同分布的領域特征. 不同的是, 基於統計准則的方法需要明確度量准則, 而這種方法並不需要. 此外, 還有一些方法通過改變網絡結構來進行知識 遷移. 這類方法的思想各不相同, 但都可以歸類於基於結構准則的方法中.

基於統計准則的方法通常使用同一個特征提取器對源域與目標域樣本提取特征, 但實際上源域數據與目標域數據分布不同但存在相關性, 兩個領域使用的特征提取器也應該是不 同但相關的. 一些基於結構准則的方法使用兩個特征提取器分別處理源域樣本和目標域樣本, 並保證兩個特征提取器之間存在相關性. 這類方法使用相同的方式搭建兩個域的特征提取器, 並對網絡參數的相關性進行約束從而建立起兩個領域之間的關系.

2.1.3 基於流形准則的方法

測地線是在格拉斯曼流形上連接兩個點的最短路徑. 基於流形准則的方法將源域空間與目標域空間作為格拉斯曼流形上的兩個點並在源域和目標域之間構建一條測地線來度量 兩個領域之間的分布差異. 基於流形准則的方法或通過對齊特征或通過生成中間樣本進行知識遷移. 對齊特征的方法通過在測地線上采樣的有限個[65]或無限個[66]子空間建立起源域 與目標域之間的聯系. 這種方法將源域和目標域映射到中間子空間來對齊分布. 生成中間 樣本的方法采用數據增廣的思想生成一系列介於源域和目標域之間的樣本進行知識遷移.

2.1.4 基於圖准則的方法⭐⭐

基於圖准則的方法將樣本與樣本間關系抽象成圖結構並使用圖之間的差異來度量領域間分布差異. 如果把樣本看作點, 樣本間的相似度看作邊, 那么數據集就可以被視作為一 個無向圖. 以這個思想為基礎, 研究者們提出減小源域圖與目標域圖之間的差異來遷移知識. 如果源域數據所表示的圖與目標域數據所表示的圖相似, 則認為源域模型可以很好地適配目標域. 基於圖准則的方法在知識遷移過程中考慮了領域分布結構從而獲得了更好的 知識遷移效果. Xu 等人提出使用樣本間距離來描述樣本間的近鄰關系, 對於每一個目標 域樣本, 計算它與每個源域樣本之間的相似度, 並以此來描述該目標域樣本與源域各類別 的近鄰關系, 將相似度作為優化目標的一部分來訓練網絡. 經過訓練的網絡最終會生成與源域樣本近似的特征表示. 在對齊圖的基礎上, 文獻[70]將類別信息引入到了遷移過程中, 提出了一種無監督圖對齊方法. 這種方法將圖中的邊分為兩類: 一種是類內邊, 類內邊連接屬於同一類別的兩個樣本; 另一種是類間邊, 類間邊連接屬於不同類別的兩個樣本. 訓練的目標是類內邊盡可能小, 而類間邊盡可能一致. 這種方法不僅對齊了源域目標域的分布還增強了特征的類別可區分性. 文獻[71]同樣將類別信息引入到了遷移過程中, 它使用目標域分類器生成目標域樣本的偽標簽, 然后通過對齊兩個領域類別質心的方式來對齊條件概率分布. 還有的方法使用神經網絡以樣本為輸入直接輸出圖結構. Yang 等人[72]提出了關聯圖預測網絡. 關聯圖是一個矩陣, 用來描述數據單元之間的關系, 其本質是一個相似性矩陣, 源域樣本以及關聯圖被用來訓練關聯圖預測網絡. 由於源域目標域之間存在關聯性, 源域關聯圖預測網絡可以直接使用在目標域上. 在遷移階段, 使用關聯圖預測網絡對目標 域數據輸出關聯圖, 並使用關聯圖與特征共同分類目標域樣本.

圖神經網絡是一類基於深度學習的處理圖信息的方法. 由於其較好的性能和可解釋性, 圖神經網絡已成為一種廣泛應用的圖分析方法. 到目前為止, 圖神經網絡還沒有應用於基 於圖准則的域適應方法中, 在未來的研究中, 圖神經網絡與域適應問題相結合將能進一步 地推動域適應領域的發展

2.2 基於對抗學習的方法

基於對抗學習的域適應方法將生成對抗網絡(Generative Adversarial Networks, GANs)[73]的思想引入到域適應問題當中. 對抗域適應的訓練過程是特征提取器與領域判別器之間的博弈過程: 領域判別器通過學習來區分源域特征與目標域特征, 而特征提取器通過學習具有領域不變性的特征表示來混淆領域判別器. 訓練完成后的網絡就可以提取出既具有類別區分性又具有領域不變性的特征表示. 基於對抗學習的方法按照對抗方式的不同可以分為單對抗域適應和多對抗域適應. 此外, 還有一些方法沒有在對抗方式上進行改進而是將注意力機制引入到對抗域適應中, 這一類方法同樣被歸類到基於對抗學習的方法中.

2.2.1 單對抗方法

單對抗方法是指使用單個領域判別器的對抗域適應方法. Ganin 首先將對抗學習應用到域適應問題當中, 提出領域對抗神經網絡(Domain-Adversarial Neural Network, DANN) , 網絡結構如圖所示.

image-20201024122442556

在對抗域適應中, 領域判別器的優化目標是減小領域判別器的分類損失, 而特征提取器的優化目標是增大領域判別器的分類損失. 為了在訓練過程中同時滿 足這兩個截然相反的優化目標, Ganin 提出了梯度反轉層(Gradient Reversal Layer, GRL)[27] , 其作用是當領域判別器的分類損失的梯度反向傳播經過判別器之后, 對梯度取反, 然后將其繼續反向傳播到特征提取器. 梯度反轉層使網絡能夠保證在領域判別器最小化領域混淆損失的同時特征提取器最大化領域混淆損失.

Chen 等人發現對抗域適應方法雖然能夠增強特征的可遷 移性但是會降低特征的類別可區分性 ,所以他們提出在訓練過程中加入批譜懲罰項來保證特征值之間的差距不 會過大, 即保證特征的可區分性. 在 DANN 中, 對特征提取器的共享導致了特征提取器不能提取源域和目標域的領域專屬信息.

針對這個問題, 對抗判別域適應(Adversarial Discriminative Domain Adaptation, ADDA)采取了權重不共享的方式, 源域特征和目標域特征獨立提取. 源域和目標域的網絡結構相同, 目標域模型參數使用源域預訓練模型的參數初始化. 相對於 DANN 來說, 由於參數不共享, 特征提取器可以提取更多的領域專屬特征.

ADDA分別以迭代的方式來最小化以下函數來最小化源域特征與目標域特征之間的距離:

image-20201027084545593

image-20201027084712099

其中\(M^s,M^t\)分別表示從源域數據\(x^s\)和目標域數據\(x^t\)中學習,\(G_y\)代表源域分類器,該方法使用源域的數據來最小化損失\(L_{cls}\),最小化\(L_{advD}\)來訓練域判別器,最小化\(L_{advM}\)來學習領域不變性的特征表示。

Volpi 等人使用特征生成器在源域特征空間中進行數據增廣, 並且使用領域判別器判別生成特征與真實特征來對齊生成樣本與目標域樣本的分布.

Hang 等人提出了一種基於對抗熵最小化的語義分割域適應方法來對齊源域目標域的標簽結構信息. 該方法使用分割圖(圖中元素代表像素屬於某個語義標簽的概率)生成加權自信息矩陣, 將分割圖的(加權自信息矩陣的元素之和)作為網絡的一個損失項來優化網絡, 使網絡輸出更加確定的語義標簽預測. 網絡最終使用領域判別器在源域目標域的加權自信息矩陣間進行對抗. 單對抗方法使用單個領域判別器, 意味着單對抗方法只能對源域和目標域的整體分布進行對齊, 這是單對抗方法的一個缺陷

2.2.2 多對抗方法

多對抗方法是指使用多個領域判別器的對抗域適應方法. 單對抗方法的分布對齊能力有限,只能夠對齊源域目標域的邊緣分布, 並不能夠保證條件概率分布同樣被對齊. 而多對抗方法除了能夠對齊邊緣分布以外還在對抗學習的過程中引入類別信息來對齊條件概率分布.

Pei 等人提出了多對抗域適應(Multi-Adversarial Domain Adaptation, MADA),使用多個類別領域判別器來對齊兩個域的數據分布. 每一個類別領域判別器只負責對齊其對 應類別的概率分布. 還有一些方法雖然沒有使用多個領域判別器, 但通過引入了類別信息獲得了與使用多個領域判別器的方法同樣的效果, 故也被歸類到多對抗方法中. Long 等人提出了條件領域對抗網絡(Conditional Domain Adversarial Networks, CDAN)。 CDAN 的創新點在於將特征與分類器輸出的外積作為新的特征輸入到領域判別器當中去, 新的特征能夠捕捉到隱藏在復雜數據分布下的多峰結構, 該方法取得了良好的 效果. Tzeng 等人將源域中屬於同一類別樣本的分類器輸出均值作為類別軟標簽. 在訓練目標域分類器時, 使用一部分帶標簽的目標域數據得到目標域分類器的輸出, 通過對齊輸出與對應類別的軟標簽達到了對齊條件概率分布的目的.

2.2.3 基於注意力機制的對抗方法

圖像的不同區域的可遷移性是不同的, 可遷移性低的區域在訓練過程中會造成負遷移. 域適應方法需要着重對圖像中與任務相關性高的區域進行知識遷移而忽略其他不相關的背 景信息. 在對抗域適應中, 有一類方法將重點集中在尋找特征圖中可遷移性較高的區域.

Kurmi等人使用貝葉斯分類器和貝葉斯領域判別器分別給出分類器輸出的不確定性和領域判別器輸出的不確定性, 通過反向傳播算法使用網絡輸出的不確定性來反推特征圖中每個 區域的領域不確定性. 領域不確定性高的區域被認為可遷移性較高, 將會被着重對齊.

Wang 等人將注意力機制引入到對抗域適應方法中, 使網絡能夠自動學習到在遷移的過程 中需要注意哪些部分. 特征圖被划分為𝑘個區域, 每一個區域都對應一個領域判別器. 在訓練結束之后, 領域判別器難以區分的部分被認為是可遷移性較好的部分, 通過對這些部分 賦予更大的權重, 網絡實現了在訓練中着重對遷移性好的區域進行對齊. 參數𝑘通常不會設定比較大的值, 划分過多的區域會增加訓練的復雜度, 因此該方法只能獲得有限的性能提升.

Luo 等人提出了一種基於協同學習與類別對抗的語義不變性域適應方法, 其網絡結構包括特征提取器, 兩個分類器以及領域判別器. 該方法被應用在圖像語義分割中. 訓練過程約束兩個分類器的參數是不同的, 從而保證分類器能夠從不同視角給出圖像中每一個像素的語義標簽. 對於源域數據來說, 兩個分類器使用集成學習的方式給出預測圖用來計算分割損失以及領域對抗損失. 對於目標域數據, 網絡使用距離函數計算兩張預測圖中對應像素的距離, 並生成注意力圖, 注意力圖被送到領域判別器中進行領域對抗. 這樣做的目 的是迫使領域判別器着重處理在目標域中兩個分類器不一致的區域. 已有的深度神經網絡的可解釋性研究[82– 84]探究的是特征圖中的不同區域對網絡預測結果的影響.

2.3 基於重構的方法

基於重構的方法是指使用自編碼器提取具有可遷移性特征的方法. 自編碼器是實現重構的基本網絡結構, 是一種可以用來抑制信息損失的無監督學習方法, 由一個前饋神經 網絡組成, 包括編碼解碼兩個過程. 自編碼器首先將輸入映射為編碼, 然后又將編碼重構回輸入, 通過使用輸入作為標簽來解決"沒有老師的反向傳播"問題. 自編碼器通過最小化 信息損失來重構輸入, 保證編碼保持數據原有的特性. 基於重構的域適應方法的優點就是能夠保證遷移過程不會破壞數據原有信息.

在域適應問題中重構可以起到三種作用, 一是域適應過程會破壞樣本中的可判別信息而重構方法可以降低信息的損失, 二是重構方法可以將特征解耦為領域專屬特征和領域不變性特征, 領域不變性特征用來遷移知識而領域專屬特征則被用來降低目標域泛化誤差. 三是重構可以提取特征的高層語義

2.4 基於樣本生成的方法

域適應將從源域中學到的知識遷移到目標域, 上文中總結的域適應方法或者尋找一個從源域特征到目標域特征的映射或者尋找兩個域的領域不變性特征. 盡管這些方法取得了一些效果, 但是仍然比不上目標域有標簽時的監督學習方法取得的性能. 基於樣本生成的域適應方法是指使用源域樣本合成帶標簽的目標域樣本, 並使用合成樣本訓練目標域網絡 的方法. 從理論上來說, 基於樣本生成的域適應方法在訓練過程中可以使用無限的數據. 充足的數據正是獲得一個性能優良的模型的關鍵之一. 與其它的域適應方法相比, 這一類方法的可解釋性更強, 通過觀察合成的目標域樣本與真實目標域樣本之間的差異就可以判斷當前方法是否學習到了一個較好的從源域到目標域的映射.

最常用的生成模型就是生成對抗網絡(Generative Adversarial Net, GAN). GAN 包括生成器和判別器. 生成器用來合成圖像, 判別器用來區分真實圖像與合成圖像. GAN 的訓練過程就是生成器與判別器之間相互博弈的過程. 當判別器已不能將合成圖像從真實圖像中區分出來時, 生成器就已經具備了合成逼真圖像的能力. 在 GAN 中, 生成器的輸入是噪音, 而輸出則是合成圖像. 由於 GAN 不能生成合成樣本的標簽, 所以只使用 GAN 不能夠完成目標域中的任務. 基於樣本生成的域適應算法的關鍵是建立起源域樣本與合成樣本之間的關系, 並利用這個關系從源域樣本標簽推測出合成樣本的標簽繼而使用合成樣本訓練模型. 共享網絡參數和圖像翻譯網絡是樣本生成的主要方式. 其中, 基於圖像翻譯網絡的方法是主流方法.

2.4.1 共享網絡參數

Liu等人提出在生成器中, 淺層網絡在解碼語義信息, 深層網絡在解碼細節信息, 而在判別器中, 信息處理的方式恰好是相反的, 即淺層網絡在提取細節信息,深層網絡在提取 語義信息. Liu 提出使用兩個生成器, 一個用於生成源域樣本而另一個生成目標域樣本. 通過共享兩個生成器的淺層網絡參數來生成具有相同語義信息的樣本. 由於兩個域的同類別樣本共享相同的語義信息, 具有相同語義信息的樣本具有相同的類別標簽, 所以目標域合成樣本的標簽可以通過源域樣本的標簽得知.

2.4.2 圖像翻譯網絡

翻譯網絡是指將源域樣本作為輸入來生成符合目標域分布的合成圖像的網絡. 翻譯網絡是一種很常見的監督學習方法, 其使用樣本對(sample pair)作為訓練數據. 域適應問題的數據集不包含樣本對, 所以研究者們在網絡的訓練過程中添加特殊約束來保證翻譯網絡輸入輸出的類別標簽一致性.

文獻[96]提出對偶學習方法, 在最小化重構損失的同時學習兩個方向相反的翻譯器. 對偶學習使兩個翻譯器在訓練過程中形成一個閉環, 兩個翻譯器相互促進學習得到了比訓練單個翻譯器更好的模型性能. 以 CycleGAN 為代表的一 類方法[21,97,98]引入對偶學習來達到這樣一個目的: 在沒有樣本對的情況下, 捕獲目標域數據集的特征, 並將該特征轉化到源域數據集上. 在這類方法中, 翻譯網絡將源域數據變換到目標域, 再從目標域變換回源域. 原數據與重構數據之間的差異被稱為循環一致性損失. CycleGAN 通過最小化循環一致性損失使網絡學習到如何在源域數據與目標域數據相互轉化。由於生成模型很難訓練, Swami 提出了生成適應方法 (Generate To Adapt, GTA)[99] , 該方法不僅使用 GAN 來合成圖像, 也利用 GAN 的訓練過程 來對齊源域目標域的特征分布. 其好處在於即使合成數據失敗, 也能得到領域不變性的特 征表示用於遷移.

2.5 小結

基於領域分布差異的方法一直以來是深度域適應的主流方法,當前, 衡量不同距離度量優劣只能通過模型在目標域上取得的性能來估計. 在這一領域, 還缺乏理論研究來證明哪一個距離度量才最適合域適應問題, 以及不同的距離度量為什么會產生不同的遷移效果

基於對抗的域適應方法的發展沿着一條清晰的脈絡, 從最初使用單個領域判別器, 到 使用一組類別領域判別器, 直至到現在使用注意力機制選出圖像中可遷移性高的部分進行對抗學習。

基於重構的遷移學習方法的優點是可以抑制特征中可遷移信息的損失, 缺點是受限於自編碼器的特征表示能力。

基於樣本生成的域適應方法將域適應問題轉換為有監督學習問題, 此類方法的關鍵是 如何將源域樣本變換到目標域. 成功地合成符合目標域分布的樣本是一個難點。

標簽空間不一致的域適應問題

與經典域適應方法相比, 標簽空間不一致的域適應方法的通用性更好, 可以解決源域目標域標簽空間不一致的實際問題。第 2 節綜述的深度域適應屬於閉集域適應,閉集域適應是指源域和目標域標簽空間相同(兩個域包含相同物體類別)的域適應問題.

由於閉集域適應問題和標簽空間不一致的域適應問題面臨不同的挑戰, 閉集域適應方法不能直接應用在標簽空間不一致的域適應問題上. 閉集域適應問題面臨的主要挑戰是領域間的分布差異. 而標簽空間不一致的域適應問題除了需要解決領域間的分布差異, 還需要解決兩個域標簽空間的差異. 如果將整個源域分布與目標域分布進行對齊, 那么屬於私有標簽空間的樣本沒有對應的類別去適配, 屬於共享標簽空間的樣本的對齊效果就會被影響, 從而造成負遷移. 解決標簽空間不一致的域適應問題的首要是抑制私有標簽空間中的樣本所造成的負遷移, 其次才是匹配共享標簽空間中的兩個域的特征分布

image-20201027094138041

3.1 部分域適應

由於大型數據集的數據量龐大包 含的物體類別豐富, 假設目標域的標簽空間是大型數據集的標簽空間的子集是非常合理的. 在這個背景下, 域適應問題變換為目標域標簽空間是源域標簽空間子集的域適應問題. 這種問題被稱為部分域適應問題。

部分域適應中存在兩個挑戰. 首先, 部分域適應需要抑制源域私有標簽空間\(\overleftarrow{C_s}\)中的樣本所造成的負遷移. 其次, 部分域適應需要促進共享標簽空間\(C\)中兩個域的分布對齊. 沒有目標域的標簽就無法確定目標域中包含哪些物體類別. 這就導 致了無法得知源域所包含的類別中哪些是共享類別, 哪些是源域私有類別. 只有先確定私有類別, 才能避免它們造成的負遷移. 部分域適應的核心在於如何正確地划分標簽空間. 部分域適應可以分為基於分類器輸出的方法和基於領域判別器輸出的方法. 這兩種方法的不同之處在於對標簽空間划分的依據不同.

3.1.1 使用分類器輸出划分標簽空間

使用分類器輸出划分私有標簽空間和共享標簽空間是一種常見的方法. 文獻[107]提出將目標域樣本在源域分類器上的輸出均值記為𝛾, 並使用𝛾划分私有標簽空間和共享標簽空間, 其網絡結構如圖 8 所示. 目標域樣本只屬於共享標簽空間, 故而𝛾中對應於共享類別的維度的數值比較大, 而對應於源域私有類別的維度的數值比較小. 文獻[107]設定一個閾值𝑡, 將𝛾中大於𝑡的維度所對應的類別記為共享標簽, 將𝛾中小於等於𝑡的維度所對應的類別記為 私有標簽空間.

image-20201027100140105

Cao 等人[1]在文獻[107]的標簽空間划分思想上在對齊過程中引入了類別信息, 在網絡中設立了一組領域判別器, 組中的每一個判別器負責判別對應類別樣本的領域標簽. 分類器的輸出是源域標簽空間上的一個概率分布. 這個分布刻畫了樣本屬於每一個類別的可能性大小. 由於目標域樣本沒有 類別標簽, 所以Cao 使用分類器輸出來決定每一個樣本分配到哪一個領域判別器上去. 這種做法使得每個目標域樣本只與最相關類別的源域樣本進行對齊從而將源域私有類別在對齊過程中剔除出去避免了負遷移.

3.1.2 使用領域判別器輸出划分標簽空間

領域判別器的輸出同樣可以作為划分標簽空間的依據. 文獻[108,109]提出在網絡結構中設立一個不參與對抗過程的領域判別器, 不參與對抗的領域判別器在誤差反向傳播過程中只計算判別器的梯度而不計算特征提取器的梯度, 這類領域判別器只學習如何區分源域特征與目標域特征而不會改變特征提取方式. 這類領域判別器的輸出可用於判斷樣本的可遷移性. 在部分域適應問題中, 共享標簽空間中的樣本的可遷移性要高於源域專屬標簽空間中的樣本的可遷移性. 文獻[108,109]設置閾值𝑡, 當領域判別器對一個樣本的分類置信度較低時, 該樣本的可遷移性比較高, 若分類置信度低於𝑡, 該樣本則屬於共享標簽空間. 當領域判別器對於一個樣本的分類置信度較高時, 該樣本的可遷移性比較低, 若分類置信度高於𝑡, 該 樣本則屬於源於私有標簽空間. 對共享標簽空間中的源域和目標域的樣本分布進行對齊就可以完成域適應.

3.2 開集域適應

解決源域標簽空間是目標域標簽空間子集的域適應問題被稱為開集域適應. 開集域適應需要解決兩個問題. 首先, 開集域適應首先需要消除分布偏移的影響. 其次, 由於源域中沒有樣本與目標域私有類別中的樣本相對應, 直接對齊兩個域的整體分布會造成負遷移. 所以需要確定共享類別與目標域專屬類別之間的界限, 並降低目標域專屬類別在對齊過程中的影響. 與部分域適應不同的是, 開集域適應不僅需要對共享標簽空間\(C\)中的目標域樣本進行分類還需要將所有的目標域私有標簽空間\(\overleftarrow{C_t}\)中樣本划分為"未知"類別. 這增加了開集域適應問題的難度. 開集域適應的核心同樣在於如何正確地划分標簽空間. 開集域適應可以分為基於相似性的方法和基於分類器輸出的方法. 這兩種方法的不同之處在於對標簽空間划分的依據不同.

3.2.1 使用目標域樣本與源域類別間相似性划分標簽空間

見Busto(open set domain adaptation)

3.2.2 使用分類器輸出划分標簽空間

見Saito(Open Set Domain Adaptation by Backpropagation)

3.3 通用域適應

通用域適應就是要解決在標簽空間關系未知情況下的域適應問題. 通用域適應要求對在共享標簽空間𝒞中的目標域樣本進行分類, 並對其它的目標域樣本標記為"未知". 由於標簽空間關系未知, 無法決定用源域中哪一部分數據去適配目標域中哪一部分數據, 所以 通用域適應的關鍵就在於尋找共享標簽空間𝒞.

文獻[106]在定義通用域適應問題的同時也提出了一個名為通用適配網絡的方法. 該方法通過整合領域相似性與分類置信度來量化樣本的可遷移性, 可遷移性在這里是指樣本屬於共享標簽空間的可能性. 該方法通過具有高可遷移性的樣本來確定共享標簽空間. 領域相似性是指樣本與源域的相似程度.領域相似性由非對抗領域判別器給出. 對於源域樣本來說,它的領域相似性越大, 它的可遷移性就越差, 而對於目標域樣本來說, 它的領域相似性越大, 它的可遷移性就越好. 分類置信度由分類器輸出的熵衡量. 熵越小分類置信度越高. 分布適配的過程會破壞特征的類別可區分性, 而在標簽空間不相同的情況下, 分布對齊只在共享標簽空間中發生. 對於源域樣本來說, 分類置信度低的樣本就可以被認為位於共享標簽空間之中. 對於目標域樣本來說, 分類置信度高則說明這個樣本與源域相似, 只有在共享空間中, 兩個域的樣本才會有一定的相似度. 故而分類置信度高的樣本可以被認為位於共享標簽空間之中.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM