Domain-adversarial training of neural networks - 1 - 論文學習


 

Domain-adversarial training of neural networks

Abstract

我們介紹了一種新的用於域自適應的表征學習方法,其中訓練和測試時的數據來自相似但不同的分布。我們的方法直接受到域自適應理論的啟發,該理論認為,要實現有效的域轉移,必須基於不能區分訓練(源)域和測試(目標)域的特征進行預測。

該方法在神經網絡體系結構的上下文中實現了這一思想,這些神經網絡體系結構是根據來自源域的標記數據和來自目標域的未標記數據(不需要標記目標域數據)進行訓練的。隨着訓練的進行,該方法促進如下特征的出現,這些特征(i)對源域上的主要學習任務具有區別性,(ii)對域之間的轉移具有不區分性。我們表明,這種自適應行為可以通過增加一些標准層和一個新的梯度反轉層在幾乎任何前饋模型中實現。由此產生的增強體系結構可以使用標准反向傳播和隨機梯度下降進行訓練,因此可以使用任何深度學習包很輕松地實現它。

我們在兩個不同的分類問題(文檔情感分析和圖像分類)上證明了我們的方法的成功,在標准基准上實現了最先進的域自適應性能。我們還驗證了該方法用於行人再識別應用的描述符學習任務中的有效性。

 

1. Introduction

為新的機器學習任務生成標記數據的成本往往是應用機器學習方法的一個障礙。特別是,這是深度神經網絡體系結構進一步發展的一個限制因素,在各種各樣的機器學習任務和應用中,深度神經網絡體系結構已經帶來了令人印象深刻的發展。對於缺乏標注數據的問題,仍然有可能獲得足夠大的訓練集來訓練大規模的深度模型,但在“測試時”遇到的數據分布可能會發生變化。一個重要的例子是在合成或半合成圖像上訓練圖像分類器,這些圖像可能大量出現並被完全標記,但它們不可避免地具有不同於真實圖像的分布 (Liebelt and Schmid, 2010; Stark et al., 2010; V ́azquez et al., 2014; Sun and Saenko, 2014)。另一個例子是在書面評論的情感分析上下文中,其中一個可能已經為一種類型的產品(例如,電影)的評論標記了數據,而需要對其他產品(例如,書籍)的評論進行分類。

在訓練分布和測試分布之間存在轉移的情況下學習一個判別分類器或其他預測器被稱為域自適應(DA)。提出的方法建立源(訓練時)域和目標(測試時)域之間的映射關系,使源域學習到的分類器與域之間學習的映射組合在一起時,也可以應用於目標域。域自適應方法的吸引力在於,當目標領域數據完全沒有標記(無監督的域注釋)或只有很少的標記樣本(半監督的域自適應)時,它能夠學習域之間的映射。下面,我們將重點討論更難的無監督情況,所建議的方法(域對抗學習)可以相當直接地推廣到半監督情況。

不同於以往的許多關於域自適應的論文都是在固定的特征表征下進行的,我們側重於在一個訓練過程中結合域自適應和深度特征學習。我們的目標是將域自適應嵌入到學習表征的過程中,這最后的分類決策是基於對域的變化即有區分度又有不變性的特征的,即該特征在源和目標域上有着相同或非常相似的分布。這樣,所得到的前饋網絡就可以適用於目標域,而不受兩個域之間轉移的阻礙。我們的方法是基於域自適應理論(Ben-David et al.,2006, 2010)的,該理論表明,可用於跨域遷移的良好表征是一種算法無法學着去識別輸入觀測的起源域的方法。

因此,我們專注於學習結合了(i)判別性和(ii)域不變性的特征。這是通過聯合優化底層特征以及兩種操作在這些特征的判別分類器實現的:(i)一個是用於預測類標簽標簽預測器,可用於訓練和測試,(ii)一個是訓練時用於判別源域和目標域的域分類器。對分類器參數進行優化以使分類器在訓練集上的誤差最小化,對底層深度特征映射參數進行優化以使標簽分類器的損失最小化,域分類器的損失最大化。因此,后者的更新工作與域分類器相反(因為它是最大化而不是最小化),它鼓勵在優化過程中出現域不變特征。 

關鍵的是,我們證明了這三個訓練過程都可以嵌入到一個適當組成的深度前饋網絡中,稱為域對抗神經網絡(DANN)(如圖1所示),該網絡使用標准層和損失函數,並且可以使用基於隨機梯度下降或其修改版(例如,帶momentum的SGD)的標准反向傳播算法進行訓練。這種方法是通用的,因為幾乎可以為任何現有的使用后向傳播進行訓練的前饋架構創建其DANN版本。在實踐中,所提出的體系結構中唯一的非標准組件是一個相當普通的梯度反轉層(gradient reversal layer),它在正向傳播期間保持輸入不變,並在反向傳播期間通過乘以一個負標量來逆轉梯度(將最大化變為最小化)。

我們在一系列深層架構和應用中,對提出的域對抗學習思想進行了實驗評估。我們首先考慮最簡單的DANN體系結構,其中樹形部分(標簽預測器、域分類器和域預測器)是線性的,並演示了在這樣的體系結構中域對抗學習的成功。對合成數據以及自然語言處理中的情感分析問題進行評價,其中DANN改進了Chen等人(2012)在common Amazon reviews基准上的最先進的marginalized Stacked Autoencoders(mSDA)方法。

我們進一步對圖像分類任務的方法進行廣泛評估,並展示了在傳統深度學習圖像數據集的結果,如MNIST (LeCun et al., 1998)和SVHN (Netzer et al., 2011)以及Office benchmarks(Saenko et al.,2010),域對抗學習允許獲得一個深度架構,可大大提高以前最先進的准確性。

最后,我們在行人再識別應用(Gong et al., 2014)的背景下評估域對抗描述符學習,其中的任務是獲得適合檢索和驗證的良好行人圖像描述符。當我們考慮一個用Siamese-like損失訓練的描述符預測器,而不是一個用分類損失訓練的標簽預測器時,我們在描述符預測器上應用域對抗學習。在一系列的實驗中,我們證明了域對抗學習可以顯著改善跨數據集的再識別。

  

2. Related work

從多個方面探討了實現領域適應性的一般方法。多年來,大部分文獻主要集中在線性假設(see for instance Blitzer et al., 2006; Bruzzone and Marconcini, 2010; Germain et al., 2013; Baktashmotlagh et al., 2013a; Cortes and Mohri, 2014)。最近,非線性表征得到了越來越多的研究,包括神經網絡表征(gloria et al., 2011;Li et al.,2014)和最著名的是最先進的mSDA (Chen et al.,2012)。這些文獻主要集中在利用基於去噪自編碼器范式的魯棒表征原理(Vincent et al.,2008)。

同時,提出了多種匹配源域和目標域特征分布的無監督域自適應方法。一些方法通過重新加權或從源域選擇樣本來實現這一點(Borgwardt et al., 2006; Huang et al., 2006; Gong et al., 2013),而其他人則尋求一種明確的特征空間變換,將源分布映射到目標分布 (Pan et al., 2011; Gopalan et al., 2011; Baktashmotlagh et al., 2013b)。分布匹配方法的一個重要方面是測量分布之間的(不)相似度。這里,一個流行的選擇是匹配kernel-reproducing Hilbert空間中的分布均值 (Borgwardt et al., 2006; Huang et al., 2006),而Gong et al. (2012); Fernando et al. (2013)則是映射與每個分布相關的主軸。

我們的方法也試圖匹配特征空間分布,然而這是通過修改特征表征本身來完成的,而不是通過重新加權或幾何變換來完成。此外,我們的方法使用了一種相當不同的方法來衡量分布之間的差異,即基於分布的可分性,通過深度判別訓練分類器來實現。還需要注意的是,有幾種方法通過逐漸改變訓練分布來從源域逐步過渡到目標域(Gopalan et al., 2011; Gong et al., 2012) 。在這些方法中,Chopra et al.(2013)通過對一系列深度自動編碼器進行分層訓練,逐步用目標域樣本替換源域樣本,進行“深度”訓練。這改進了Glorot et al. (2011) 的類似方法,后者只是為兩個領域訓練了一個單獨的深度自動編碼器。在這兩種方法中,實際的分類器/預測器是使用自動編碼器學習的特征表征以分離的方式學習的。與Glorot et al. (2011) 、Chopra et al. (2013)相反,我們的方法在一個統一的體系結構中,使用單一的學習算法(backpropagation),共同進行特征學習、域自適應和分類器學習。因此,我們認為我們的方法更簡單(無論是在概念上還是在實現方面)。我們的方法在流行的 Office benchmark測試中也獲得了相當好的結果。

雖然上述方法實現了無監督域自適應,但也有一些方法通過利用目標域的標記數據來執行監督域自適應。在深度前饋體系結構的背景下,這些數據可以用來“微調”在源域上訓練的網絡(Zeiler and Fergus, 2013; Oquab et al., 2014; Babenko et al., 2014)。我們的方法不需要標記的目標域數據。同時,當這些數據可用時,我們的方法可以很容易地合並這些數據。

Goodfellow et al. (2014)描述了一個與我們相關的想法。盡管他們的目標截然不同(構建可以合成樣本的生成深度網絡),他們測量和最小化訓練數據分布和合成數據分布之間的差異的方法與我們的架構測量和最小化兩個域特征分布之間的差異的方法非常相似。此外,作者還提到了sigmoids飽和的問題,這種問題可能在訓練的早期階段出現,這是由於域的顯著不同導致的。他們用來規避這個問題的技術(梯度的“對抗性”部分被根據合適的成本計算的梯度所取代)直接應用於我們的方法。

此外,最近的Tzeng et al. (2014); Long and Wang (2015)也關注了前饋網絡的域自適應。他們的技術集 度量並最小化了跨域數據分布平均值之間的距離(可能是在將分布嵌入到RKHS之后)。因此,他們的方法與我們的想法不同,我們的想法是通過使鑒別分類器無法區分分布來實現的。下面,我們在 Office benchmark上將我們的方法與 Tzeng et al. (2014); Long and Wang (2015)的進行比較。Chen et al. (2015)同時開發了另一種深度域自適應方法,這與我們的方法有着更大的不同。

從理論的角度來看,我們的方法直接來源於Ben-David et al. (2006, 2010)的開創性理論工作。事實上,DANN直接優化了的概念。我們確實注意到Huang and Yates (2012)的工作,其使用后驗正則化器學習HMM表征用於單詞標記,該方法也受到Ben-David等人工作的啟發。除了任務不同——Huang and Yates (2012)關注單詞標注問題——,我們認為DANN學習目標更緊密地優化了,而Huang and Yates (2012)出於效率原因,依賴於粗糙的近似。

本文的一部分已作為會議論文Ganin and Lempitsky (2015)發表。該版本在很大程度上擴展了Ganin and Lempitsky (2015),納入了Ajakan et al. (2014)的報告(作為第二屆遷移和多任務學習研討會的一部分),引入了新的術語、深入的理論分析和對方法的論證,在合成數據和自然語言處理任務(情感分析)上,對shallow DANN情況進行了廣泛的實驗。此外,在這個版本中,我們超越了分類的效果,並在行人再識別應用中評估用於描述符學習設置的域對抗學習。

 

3. Domain Adaptation

這里我們考慮了分類任務,其中是輸入空間,個可能出現的標簽集。而且在上有兩個不同的分布,命名為源域和目標域。然后為一個無監督域自適應學習算法提供了來自的標記源樣本和來自的未標記目標樣本,其中上的邊際分布。

為樣本總數。學習算法的目標是建立一個有着低目標風險的分類器

沒有任何關於標簽的信息

 

3.1 Domain Divergence

為了解決這一具有挑戰性的域自適應任務,許多方法用源error和源與目標分布之間的距離總和來約束目標誤差。這些方法是通過一個簡單的假設直觀地證明的:當兩個分布相似時,源風險被期望為目標風險的一個很好的指示器。一些距離的概念已經被提出用於域自適應中(Ben-David et al., 2006, 2010; Mansour et al., 2009a,b; Germain et al., 2013)。在本文中,我們主要關注Ben-David et al. (2006, 2010)使用並基於 Kifer et al. (2004)的早期工作的。注意,我們下面在定義1中的假設是 假設類是一個二分類器(離散或連續)集

Definition 1 (Ben-David et al., 2006, 2010; Kifer et al., 2004)  給定兩個上的域分布、一個假設類之間的為:

取決於假設類區分由生成樣本和由生成樣本的能力。Ben-David et al. (2006, 2010)證明了,對於一個對稱假設類,可計算得到兩個樣本之間的經驗,計算式子為:

是指標函數,當a為true時為1,否則為0

 

3.2 Proxy Distance

Ben-David et al. (2006, 2010)建議,即使計算比較難(即當上線性分類器的空間時),我們可以通過運行用來解決源和目標樣本的判別問題的學習算法來近似它。因此,我們構建了一個新的數據集:

其中源樣本標記為0,目標樣本標記為1。然后,訓練在新數據集的分類器的風險近似於等式(1)的“min”部分。因此,在源和目標樣本的判別問題中給定一個測試error ,Proxy A-distance (PAD)為:

在本文的實驗部分(見第5.1.5節),我們采用了Glorot et al. (2011); Chen et al. (2012)的方法計算PAD值,即在一個子集(式子2)上訓練線性支持向量機,將另一個子集上獲得的分類器誤差作為式子(3)中的值。

 

3.3 Generalization Bound on the Target Risk

Ben-David et al. (2006, 2010)也顯示, 的上界為其經驗估計值加上一個由的VC維度和樣本的大小決定的常數項。通過將該結果和源風險中相似的邊界結合起來,就能夠得到下面的定理。

Theorem 2 (Ben-David et al., 2006)  讓為一個VC維d的假設類。在樣本中以的概率進行選擇,對於每個

上面的結果告訴我們,只有當β項較低時,才可能較低,即只有當存在一個分類器可以在兩個分布上實現低風險時。它還告訴我們,要在給定的固定VC維類中找到具有小的分類器,學習算法應該最小化(在該類中)源風險和經驗 之間的權衡。Ben-David et al. (2006)指出,控制的一種策略是找到源域和目標域都盡可能不可區分的樣例的表征。在該表征下,根據定理2,低源風險的假設在目標數據上會有很好的效果。本文提出了一種直接利用這一思想的算法。

 

4. Domain-Adversarial Neural Networks (DANN)

我們方法的一個原始想法是將定理2所展示的思想顯式地實現到神經網絡分類器中。也就是說,為了學習一個可以很好地從一個域推廣到另一個域的模型,我們要確保神經網絡的內部表征不包含關於輸入(源或目標)的判別性信息,同時對源(標記的)樣例保持低風險。

在本節中,我們將詳細介紹我們提出的將“域自適應組件”並入神經網絡的方法。在第4.1小節中,我們首先為最簡單的可能情況開發該想法,即,單個隱含層的全連接神經網絡。然后,我們描述如何將該方法推廣到任意(深度)網絡體系結構。

 

4.1 Example Case with a Shallow Neural Network

讓我們首先考慮一個只有一個隱含層的標准神經網絡(NN)體系結構。為簡單起見,我們假設輸入空間是由m維實向量構成的。因此。隱藏層學習了將一個樣本映射到一個新的D維表征的函數,且其參數為一個矩陣向量對

簡單來說,預測層學習了一個參數為對的函數

已知。通過使用softmax函數,向量的每一個分量都表示表示神經網絡將x賦值給由該分量所代表的Y中的類的條件概率。給定源樣本,使用的分類損失為正確標簽的負對數似然:

然后訓練神經網絡將導致源域中出現如下的優化問題:

 

其中是第i個樣本預測損失的縮寫版,是一個使用超參數λ加權的可選正則項。

我們方法的核心是設計一個直接從定義1的導出的域正則化器。為此,我們將隱含層(式4)的輸出視為神經網絡的內部表征。因此,我們將源樣本表征表示為:

類似地,給定一個來自目標域的未標記樣本,我們表示相應的表征為:

基於等式(1),樣本之間對稱假設類的經驗為:

作為表征空間中超平面的類。受Proxy A-distance(3.2節)的啟發,我們建議使用一個學習邏輯回歸的域分類層去估計等式(6)的“min”部分:,參數為vector-scalar pair ,該層構建了一個給定輸入來自源域或目標域的概率。因此:

因此,函數是一個域回歸器。我們定義其損失為:

 

其中表示第i個樣本的二進制變量(域標簽),用來表示來自源分布()或來自目標分布(

在訓練時,對於來自源分布的樣本(),其對應的標簽是已知的。對於來自目標域的樣本,在訓練時我們不知道其標簽,我們希望在測試時預測其標簽。因此我們添加了一個域自適應項到等式(5)的目標函數中,給出了如下的正則化器:

其中。該正則化器嘗試近似於等式(6)的的替代版。遵循定理2,等式(5)和(8)的優化問題實現了源風險最小化和散度之間的權衡。超參數λ被用於在學習過程中調節兩項之間的平衡。

為了學習,我們首先注意到可以將等式(5)的完全優化目標重寫為:

然后我們去尋找能夠得到該目標函數鞍點的參數

因此,優化問題涉及到對某些參數的最小化,以及對其他參數的最大化。

 

 

我們建議用一個簡單的隨機梯度程序來解決這個問題,在這個過程中,朝方程(9)梯度的相反方向進行更新,來最小化參數;而朝梯度的原方向進行更新來最大化其他參數。對梯度進行隨機估計,使用訓練樣本的子集來計算平均值。算法1提供了這個學習過程的完整偽代碼。在訓練中,神經網絡(參數為)和域回歸器(參數為)在方程(9)的目標函數中以對抗性的方式相互競爭。由於這個原因,我們將根據這個目標函數訓練的網絡稱為域對抗神經網絡(DANN)。DANN將有效地嘗試學習一個將樣本(來自源域或目標域)映射為表征的隱藏層,且允許輸出層准確地分類源樣本,但削弱了用來檢測每個例子是屬於源或目標域的回歸器的能力。

 

4.2 Generalization to Arbitrary Architectures

為了便於說明,我們到目前為止只關注一個隱藏層DANN的情況。然而,它可以直接推廣到其他復雜的體系結構,這可能更適合於手頭的數據。例如,以作為學習圖像判別特征的最先進模型而聞名的深度卷積神經網絡(Krizhevsky et al.,2012)。

我們為DANN的不同成分使用更通用的注釋。主要有用表示D維神經網絡特征抽取器,參數為。用表示DANN中用來計算網絡標簽預測的輸出層,參數為對應的是網絡域預測輸出的計算,參數為。為了保持定理2的理論保證,由域預測成分生成的假設類應該包含由標簽預測成分生成的假設類。因此

預測損失和域損失分別為:

然后訓練DANN,優化:

 

尋找鞍點

定義在等式(11-12)的鞍點通過尋找以下梯度更新的平穩點來得到:

其中μ是學習率。我們通過從數據集中采樣,然后使用這些樣本的梯度進行隨機估計。
方程(13-15)的更新非常類似於前饋深度模型的隨機梯度下降(SGD)更新,該模型包括輸入標簽預測器和域分類器的特征提取器(損失以λ加權)。唯一的區別是,在(13)中,類和域預測器的梯度相減,而不是相加(這種差別是十分重要的,否則SGD會試圖使跨域的特征不相同,以減少領域分類損失,而我們的目的正好相反)。由於SGD——以及它的許多變體,如ADAGRAD (Duchi et al.,2010)或ADADELTA (Zeiler, 2012)——是大多庫中用於深度學習的主要學習算法,因此將我們的隨機鞍點程序的實現設置為SGD是很方便的。

幸運的是,這種相減的變化可以通過引入特殊的梯度反轉層(GRL)來實現,定義如下。梯度反轉層沒有與之相關的參數。在正向傳播過程中,GRL充當一個恆等變換。然而,在反向傳播過程中,GRL從下一層獲取梯度並改變其符號,即在將其傳遞到前一層之前將其乘以−1。使用現有的面向對象的深度學習包實現這樣一個層很簡單,只需要定義前向傳播(恆等變換)、后向傳播(乘以−1)的過程。該層不需要參數更新。

上面定義的GRL將插入到特征抽取器和域分類器中,得到如圖1所示的結構。當后向傳播經過GRL時,GRL下流的損失(即)關於GRL上流的層參數(即)的偏導將乘以-1,即將被換成。因此,在最終模型上運行SGD實現了等式(13-15)的更新和等式(10)中鞍點的收斂。

在數學上,我們可以正式地將梯度反轉層視為由兩個(不兼容的)方程定義的“偽函數”,這兩個方程描述了它的正向和反向傳播行為:

是一個恆等矩陣。然后我們可以定義我們的方法中使用隨機梯度下降優化的的目標“偽函數”為:

對(13-15)的更新可以通過對(18)執行SGD來實現,並導致同時出現域不變且具有區別性的特征。學習后,標簽預測器可以用來預測來自目標域的樣本的標簽(當然也可以預測來自源域的樣本)

 

5. Experiments

5.1 Experiments with Shallow Neural Networks

 在第一個實驗中,我們評估第4.1小節描述的簡單版本的DANN的行為。請注意,本小節中報告的結果是使用算法1獲得的。基本上,這種隨機梯度方法包括對源例和目標例進行采樣,並對DANN的所有參數進行梯度step更新。至關重要的是,盡管常規參數的更新通常遵循梯度的相反方向,但對於對抗參數,step必須遵循梯度的方向(因為我們會最大化它們,而不是最小化它們)。

5.1.1 Experiments on a Toy Problem

作為第一個實驗,我們研究了所提出的算法在 inter-twinning moons 2D問題上的效果,其中目標分布是源分布的旋轉。作為源樣本,我們分別生成標記為0和1的lower moon和upper moon,每個都包含150個樣本。目標樣本通過以下步驟得到:(1)我們按照生成的相同方法生成一個樣本;(2)我們將每個樣本旋轉35;(3)去掉所有的標簽。因此,包含300個未標記的樣本。我們已經在圖2中表示了這些樣本。

 

通過與標准神經網絡(standard NN)的比較,研究了DANN的自適應能力。在這些toy實驗中,兩種算法共享相同的網絡架構,隱藏層大小為15個神經元。我們甚至使用與DANN相同的程序訓練NN。也就是說,我們使用目標樣本(超參數λ = 6;DANN使用相同的值)去更新域回歸器,但是我們禁用了隱藏層的反向傳播。為此,我們通過省略編號為22和31的行來執行算法1。這允許在不使用任何正則化器的情況下恢復基於等式(5)的源風險最小化的神經網絡學習算法,並同時訓練等式(7)的域回歸器來區分源域和目標域。有了這個toy經驗,我們將首先說明與NN相比,DANN是如何適應其決策邊界的。此外,我們還將說明由DANN隱藏層給出的表征如何比用NN給出的表征更不適合進行域任務(因為DANN的表征在域上不可分,這就是為什么我們在NN實驗中需要一個域回歸器)。我們記得這是我們提出的算法的基本思想。我們的廣泛分析可見在圖2中,上面的圖與標准NN有關,下面的圖與DANN有關。通過上下圖,我們從四個不同的角度比較了NN和DANN,具體描述如下。

圖2中的“Label Classification”列顯示了DANN和NN對源例和目標例的標簽預測問題的決策邊界。如預期的那樣,NN對源樣本S的兩類樣本進行了准確的分類,但對目標樣本並沒有完全適應。相反,DANN的決策邊界對源樣本和目標樣本的樣本都進行了完美的分類。在研究任務中,DANN明顯適應目標分布。

“Representation PCA”列研究了域自適應正則化器如何影響網絡隱藏層提供的表征。對源數據點和目標數據點的所有表征集,即,應用主成分分析(PCA)得到圖。因此,給定訓練好的網絡(NN或DANN), 中的每一點都通過隱藏層映射到一個15維的特征空間,並通過PCA變換投影回一個二維平面。在DANN-PCA表征中,我們觀察到目標點均勻地分布在源點之間;在NN-PCA表征中,目標點大量聚類,且其中沒有源點。因此,標記目標點對給定DANN-PCA表征來說似乎是一個簡單的任務。

 

為了進一步推動分析,PCA圖用字母A、B、C和D標記了四個關鍵數據點,它們對應於原始空間中的moon極點(注意,原始點位置在第一列圖中被標記)。我們觀察到點A和點B在NN-PCA表征中非常接近,但它們顯然屬於不同的類別。同樣的情況也發生在點C和點D。相反,這四個點在DANN-PCA表征相反的四個角上。還要注意目標點A (resp. D)(在原始空間中很難分類)DANN-PCA表征中位於簇中(resp. 簇)。因此,DANN所提出的表征更適合於適應問題。

 

“Domain Classification”列表示域分類問題的決策邊界,由式(7)的域回歸器給出。更准確地說,當時,將一個樣本x歸類為源樣本,否則被歸類為域樣本。記住,在DANN的學習過程中,回歸器努力區分源域和目標域,而隱藏表征則被對抗地更新以阻止其成功。如前所述,我們在NN學習過程中訓練了域回歸器,但不允許它影響學習到的表征

一方面,DANN域回歸器完全不能概括源和目標分布拓撲。另一方面,NN域回歸器顯示出較好的泛化能力(雖然不完全)。除此之外,它似乎能大致反映目標分布的旋轉角度。這再次證實了DANN表征不允許對域進行區分

列"Hidden Neurons"顯示了隱藏層神經元的配置(通過方程4,我們知道每個神經元都是一個線性回歸器)。換句話說,15條點線中的每一條對應着的第i 個分量的值為1/2的坐標因為這里隱藏層輸出的是15維的特征)。我們觀察到,標准NN神經元分為三個簇,每個簇允許為標簽分類問題生成一條曲折的決策邊界的直線。然而,大多數神經元也能夠(大致)捕捉域分類問題的旋轉角度。因此,我們觀察到DANN的適應調節器阻止了這類神經元的產生。令人吃驚的是,NN神經元中的兩種主要模式(即兩條平行線從左下到右上跨越平面)在DANN神經元中消失了。

 

5.1.2 Unsupervised Hyper-Parameter Selection

為了進行無監督域自適應,需要以無監督方式設置超參數(如域正則化參數λ、學習率、我們方法的網絡結構)的方法,即不參考目標域的標記數據。在接下來的5.1.3和5.1.4節的實驗中,我們使用Zhong et al.(2010)提出的反向交叉驗證(reverse cross-validation)方法的變體來選擇每個算法的超參數,我們稱之為反向驗證(reverse validation)。

為了評估與超參數元組相關的反向驗證風險(reverse validation risk),我們按以下步驟進行操作。給定已標記的源樣本和未標記的目標樣本,我們將每個集合分別划分為訓練集(,包含90%的原始樣本)和驗證集()。我們使用標記集和未標記目標集來學習一個分類器η。然后,使用相同的算法,我們使用自標記集的未標記部分作為目標樣本學習反向分類器ηr。最后,在源樣本的驗證集上對反分類器的ηr進行了評估。然后我們說分類器η具有的反向驗證風險。該過程采用多個超參數值進行重復實驗,所選分類器為反向驗證風險最低的分類器。

注意,當我們訓練神經網絡結構時,驗證集也被用作η的學習過程中的early stopping准則,自標記驗證集被用作ηr學習過程中的early stopping准則。當我們用網絡η學到的配置初始化反向分類器ηr的學習時,我們還觀察到更好的准確度。

  

5.1.3 Experiments on Sentiment Analysis Data Sets

我們現在將我們提出的DANN算法的性能與一個有着方程(5)描述的隱藏層(NN)的標准神經網絡和一個使用線性核的支持向量機(SVM)進行比較。我們在如Chen et al.(2012)進行預處理過的亞馬遜評論數據集上對算法進行比較。該數據集包括四個域,每個域都由特定類型的產品(書籍、dvd磁盤、電子產品和廚房用具)的評論組成。評論被編碼在5000維的unigrams和 bigrams的特征向量中,標簽是二進制的:“0”表示產品排名為3星或以下,“1”表示產品排名為4星或5星。

我們執行12個域適應任務。給出了2000個標記源實例和2000個未標記目標實例。然后,我們在單獨的目標測試集(在3000到6000個樣本之間)上對它們進行評估。注意,神經網絡和支持向量機不使用未標記的目標樣本進行學習。

下面是關於每個學習算法使用的過程的更多細節,結果如表1所示。

  • 對於DANN算法,自適應參數λ在10−2和1之間的9個對數范圍內選擇。隱藏層的大小是50或100。最后,學習率μ固定在10−3
  • 對於NN算法,我們使用與上面的DANN完全相同的超參數和訓練過程,只是我們不需要自適應參數。注意,我們可以使用λ = 0的DANN實現(算法1)來訓練NN。
  • 對於SVM算法,超參數C是從10−5和1之間的10個對數值中選擇的。這個取值范圍與Chen et al.(2012)在他們的實驗中使用的相同。

如第5.1.2節所述,我們對三種學習算法都采用了反向交叉驗證來選擇超參數,並以early stopping作為DANN和NN的停止准則。

表1a的““Original data”部分顯示了所有算法的目標測試精度,表1b報告了根據泊松二項檢驗(Lacoste et al., 2012),一種算法的概率明顯優於另一種算法。我們注意到,DANN的性能明顯優於NN和SVM,概率分別為0.87和0.83。由於DANN和NN之間唯一的區別是域自適應正則化,我們得出結論,我們的方法成功地幫助找到適合目標域的表征。

 

5.1.4 Combining DANN with Denoising Autoencoders

我們現在想知道,我們的DANN算法是否可以改進由Chen et al.,(2012)提出的最先進的Marginalized Stacked Denoising Autoencoders(mSDA)方法所學習到的表征。簡單地說,mSDA是一種無監督算法,它學習訓練樣本的一種新的魯棒特征表征。它使用源樣本和目標樣本中未標記的部分學習一個從輸入空間X到新的表征空間的特征映射。作為一種去噪自編碼器算法,它發現了一種特征表示,可以(近似地)重構來自帶噪聲的對照組的樣本的原始特征。Chen et al.,(2012)表明,使用mSDA和線性SVM分類器在Amazon Reviews數據集上達到了最先進的性能。作為SVM的替代方法,我們提出在mSDA生成的相同表征上應用我們的Shallow DANN算法(使用源樣本和目標樣本的表征)。請注意,即使mSDA和DANN是兩種表征學習方法,它們優化的目標不同,可以互補。

我們在前面小節中描述的相同的Amazon Reviews數據集上執行這個實驗。對於每一對source-target,我們使用50%的損壞概率和5層網絡來生成mSDA表征。然后我們在這些表征上執行三種學習算法(DANN, NN, SVM)。更准確地說,按照Chen et al.(2012)的實驗過程,我們使用5層輸出和原始輸入的串聯作為新的表征。因此,每個樣本現在都被編碼在一個30,000維的向量中。注意,我們使用的參數與前面的第5.1.3小節相同,但是對於DANN和NN都使用了10−4的學習率μ 。表1a中“mSDA representation”列的結果證實了mSDA和DANN組合是一種合理的方法。實際上,泊松二項檢驗表明,DANN比NN和SVM的性能更好,概率分別為0.92和0.88,如表1b所示。

 

5.1.5 Proxy A-Distance

DANN算法的理論基礎是Ben-David et al.(2006, 2010)的域自適應理論。我們聲稱,DANN發現了一種源和目標樣本難以區分的表征。我們在5.1.1節的toy實驗中已經指出了一些證據,但我們想用實際數據來證實它。為此,我們比較了Amazon Reviews數據集的各種表示表征上的Proxy A-distance(PAD);這些表征可以通過運行NN、DANN、mSDA或mSDA和DANN組合來獲得。回想一下,如第3.2節所述,PAD是一個估計源和目標表征的相似性的度量。更准確地說,為了獲得一個PAD值,我們使用以下步驟:(1)我們使用訓練樣本的源和目標表征去構造等式(2)的數據集;(2)將隨機分成兩個大小相等的子集;(3)在的第一個子集上使用大范圍的C值訓練線性支持向量機;(4)計算得到的分類器在的第二個子集上的error;(5)采用error最小的方法計算等式(3)的PAD值。

 

首先,圖3a將5.1.3節實驗中得到的DANN表征的PAD(使用得到表1的結果的超參數值)與在原始數據上計算的PAD進行了比較。正如預期的那樣,DANN表征使PAD值下降。

其次,圖3b比較了DANN表征的PAD和標准NN表征的PAD。由於PAD受隱藏層大小的影響(識別能力隨着表征長度的增加而增加),我們在這里將兩種算法的大小固定為100個神經元。我們還確定了DANN的自適應參數λ≃0.31;它是在我們之前對Amazon Reviews數據集進行的實驗中大部分時間所選擇的值。再一次說明了,DANN明顯導致最低的PAD值。

最后,圖3c給出了與5.1.4節實驗相關的兩組結果。一方面,我們重現了Chen et al. (2012)的結果,他們注意到mSDA表征比原始(原始)數據具有更大的PAD值。雖然mSDA方法明顯有助於適應目標任務,但它似乎與Ben-David等人的理論相矛盾。另一方面,我們觀察到,當在mSDA之上運行DANN時(使用得到表1的結果的超參數值),獲得的表征有更低的PAD值。這些觀察結果可能解釋了DANN與mSDA程序結合時所提供的改進。

 

5.2 Experiments with Deep Networks on Image Classification

我們現在在一些流行的圖像數據集及其修改版上進行DANN深度版本(參見小節4.2)的廣泛評估。包括廣泛使用深度學習方法的小圖像的大規模數據集,以及OFFICE數據集(Saenko et al., 2010),這些數據集實際上是計算機視覺域自適應的標准,但包含的圖像比較少。

 

5.2.1 Baselines

以下基線將在本分段實驗中進行評估。訓練source-only模型時不考慮目標域數據(網絡中沒有包含域分類器分支)。在顯示類標簽的目標域上訓練train-on-target模型。該模型作為DA方法的上界,假設目標數據豐富且域間的位移相當大。

此外,我們將我們的方法與最近提出的基於subspace alignment (SA)的無監督DA方法(Fernando et al., 2013)進行了比較,該方法在新數據集上易於建立和測試,在與其他“shallow”數據挖掘方法的實驗比較中也表現得很好。為了提高這個基線的性能,我們從{2,…, 60}范圍選擇最重要的free參數(主成分的數量),使目標域上的測試性能達到最大化。為了在我們的設置中應用SA,我們訓練了一個source-only模型,然后將標簽預測器(在最終線性分類器之前)最后一個隱含層的激活作為描述符/特征,並學習源和目標域之間的映射(Fernando et al., 2013)。

因為SA基線在適應特性后需要訓練新的分類器, 且為了把所有的設置放到相等的水平上,我們為所有四種考慮方法(包括我們的;目標域上的性能在重新訓練后保持大致相同)使用標准線性支持向量機重新訓練標簽預測器的最后一層 (Fan et al., 2008) 。

對於OFFICE數據集(Saenko et al.,2010),我們直接比較了我們的完整網絡(特征提取器和標簽預測器)的性能,並使用以前發表的結果與最近的DA方法進行了比較。

 

5.2.2 CNN architectures and Training Procedure

一般來說,我們從兩個或三個卷積層組成特征提取器,從以前的工作中選擇它們的精確配置。更准確地說,我們的實驗使用了四種不同的結構。前三個如圖5所示。對於OFFICE域,我們使用來自caffe包的預訓練的AlexNet 模型(Jia et al., 2014)。適應架構與Tzeng et al.(2014)(A 2-layer domain classifier (x→1024→1024→2) is attached to the 256-dimensional bottleneck of fc7)相同

 

 

對於域自適應組件,我們使用了三個全連接層(x→1024→1024→2)(除了MNIST,其我們使用了一個更簡單的(x→100→2)架構來加速實驗)。我們承認,這些選擇是任意的,如果調整架構的這一部分,可能會獲得更好的適應性能。

對於損失函數,我們將分別設為邏輯回歸損失和二項式交叉熵。繼Srivastava et al.(2014)之后,我們在訓練SVHN架構時也使用了dropout和l2-norm限制。

其他超參數沒有像第5.1節的小規模實驗那樣通過網格搜索(grid search)來選擇,這樣計算成本會很高。相反,在隨機梯度下降過程中,使用以下公式調整學習率:

其中p為從0到1的線性變化的訓練進度,μ0 = 0.01, α = 10, β = 0.75(在源域上對schedule進行了優化,以促進收斂和低誤差)。momentum設置為0.9。
域自適應參數λ從0開始,通過下面的調度逐漸變為1: 

在所有實驗中γ被設置為10(schedule沒有優化/調整)。這種策略允許域分類器在訓練過程的早期階段對噪聲信號較不敏感。然而需要注意的是,這些λp僅用於更新特征提取器。為了更新域分類器組件,我們使用固定的λ = 1,以確保后者訓練的速度與標簽預測器一樣快。

最后,需要注意的是,該模型是在128個大小的batches上訓練的(圖像通過均值減法進行預處理)。每個batch的一半由來自源域(帶有已知標簽)的樣本填充,剩余部分由目標域(帶有未知標簽)組成。

 

5.2.3 Visualizations

我們使用t-SNE (van der Maaten, 2013)投影來可視化網絡不同點的特征分布,同時對域進行顏色編碼(圖6)。正如我們已經觀察到的DANN shallow版本(見圖2),在目標域的分類精度方面,自適應的成功與否與此類可視化中域分布的重疊有很強的對應關系。

 

5.2.4 Results On Image Data Sets

我們現在討論實驗設置和結果。在每種情況下,我們在源數據集上進行訓練,並在不同的目標域數據集上進行測試,域之間有相當大的變化(見圖4)。結果總結在表2和表3中。

 

 

MNIST→MNIST-M. 我們的第一個實驗處理MNIST數據集(LeCun et al., 1998)(源)。為了獲得目標域(MNIST-M),我們將原始集合中的數字混合到從BSDS500(Arbelaez et al., 2011)中隨機提取的彩色照片上。兩個圖像的操作定義為,其中i、j是軸的坐標,k是channel索引。換句話說,輸出樣本是通過從一張照片中獲取一個patch,並在與某個數字的像素對應的位置上反轉其像素來產生的。對於人類來說,分類任務只變得比原始數據集稍微困難一些(數字仍然可以清晰區分),而對於經過MNIST訓練的CNN來說,這個域是相當不同的,因為背景和筆畫不再是恆定的。因此,source-only模型的性能很差。我們的方法成功地對齊了特征分布(圖6),這導致了成功的自適應結果(考慮到自適應是無監督的)。同時,subspace alignment (SA) (Fernando et al., 2013)對source-only模型的改進相當有限,從而突出了自適應任務的難度。

Synthetic numbers → SVHN. 為了解決對合成數據進行訓練和對真實數據進行測試的常見場景,我們使用Street-View House Number數據集SVHN( Netzer et al.2011)作為目標域和合成數字作為源域。后者(合成數字)由我們自己通過改變文本(包括不同的一位數、二位數和三位數)、定位、方向、背景和筆畫顏色以及模糊程度從WindowsTM字體生成的≈500,000張圖像組成。人工選擇變化程度來模擬SVHN,但兩組數據集仍然存在較大差異,最大的差異在於SVHN圖像背景中的結構雜波。

提出的基於反向傳播的技術可以很好地覆蓋僅使用源數據訓練和使用已知目標標簽的目標領域數據訓練之間的近80%的差距。相比之下,SA Fernando et al. (2013)導致分類准確率略有下降(可能是降維過程中信息丟失的原因),這表明自適應任務比MNIST實驗更具挑戰性。

MNIST↔SVHN. 在本實驗中,我們進一步增大了分布之間的差距,並對MNIST和SVHN進行了檢驗,這兩種分布在外觀上存在顯著差異。即使沒有自適應,訓練SVHN仍是具有挑戰性的-分類error在前150個epochs保持高值。因此,為了避免最終在一個較差的局部最小值,我們在這里不使用學習率退火方法。顯然,MNIST→SVHN和SVHN→MNIST這兩個方向的難度並不相同。由於SVHN更加多樣化,在SVHN上訓練的模型被認為更加通用,並能在MNIST數據集上合理地執行。事實上,結果也證實了該情況,且特性分布的出現也支持了這種情況。當我們將它們輸入單獨使用MNIST訓練的CNN時,我們觀察到域之間有相當強的分離,而對於SVHN訓練的網絡,這些特征更加混雜。這種差異可能解釋了為什么我們的方法在SVHN→MNIST場景中通過自適應成功地提高了性能(見表2),但在相反的方向上卻不能(SA在這種情況下也不能進行自適應)。從MNIST到SVHN的無監督自適應為我們的方法提供了一個失敗的例子(我們不知道有任何無監督DA方法能夠執行這種自適應)。 

Synthetic Signs → GTSRB.  總的來說,這個設置類似於Syn Numbers→SVHN實驗,除了特征的分布更為復雜,因為類的數量要多得多(43個而不是10個)。對於源域,我們獲得了100,000幅模擬各種成像條件的合成圖像(我們稱之為Syn Signs)。在目標域,我們使用31,367個隨機訓練樣本進行無監督自適應,其余的用於評估。再一次,我們的方法實現了一個合理的性能提高,證明它適合於synthetic-to-real的數據適應。

作為一個額外的實驗,我們也評估了提出的算法的半監督域自適應,即提供少量標記目標數據。在這里,我們展示了430個帶標簽的樣本(每類10個樣本),並將它們添加到訓練集用於標簽預測器。圖7顯示了整個訓練過程中驗證error的變化。雖然圖表清楚地表明,我們的方法在半監督設置中是有益的,但半監督設置的徹底驗證有待於未來的工作。

 

Office data set. 最后,我們在OFFICE數據集上評估了我們的方法,這是三個不同領域的集合:AMAZON、DSLR和WEBCAM。與前面討論的數據集不同,OFFICE是相當小的,其最大的域只有2817張標記圖像分布在31個不同類別中。可用數據的數量對於成功訓練深度模型是至關重要的,因此我們選擇了在ImageNet(來自Caffe軟件包的AlexNet (Jia et al., 2014))上預訓練的CNN進行微調,正如最近DA的一些工作 (Donahue et al., 2014; Tzeng et al., 2014; Hoffman et al., 2013; Long and Wang, 2015)所做的那樣。通過使用完全相同的網絡架構,用域分類器取代基於域均值的正則化,我們使我們的方法與Tzeng et al. (2014)更具可比性。

在之前的工作之后,我們在三個最常用的遷移任務上評估了我們的方法的性能。我們的訓練方案來自Gong et al. (2013); Chopra et al. (2013); Long and Wang (2015) ,在自適應過程中,我們使用了所有可用的已標記源樣本和未標記目標樣本(我們的方法的前提是目標域內有着豐富的未標記數據)。此外,所有源域都用於訓練。在這種“fully-transductive”的設置下,我們的方法能夠大大提高之前報道的無監督適應的最新准確度(表3),特別是在最具挑戰性的Amazon→Webcam場景(兩個域的域位移最大)。

有趣的是,在所有的三個實驗中,隨着訓練的進行我們觀察到輕微的過擬合,但它並沒有破壞驗證准確性。此外,關閉域分類器分支會使這種效果更加明顯,由此我們可以得出結論,我們的技術可以作為一個正則化器

 

5.3 Experiments with Deep Image Descriptors for Re-Identification

在本節中,我們將在行人再識別(re-id)問題中討論所描述的自適應方法的應用。行人再識別的任務是將不同視角下的人聯系起來。更正式地說,它可以定義如下:給出兩套來自不同攝像機的圖像(probe和gallery),這樣每個在probe集上的人在gallery集上也有一張圖片。不相交的相機視圖,不同的照明條件,各種姿態和低質量的數據使這個問題甚至對人類來說都很困難(Liu et al.,2013,例如,在VIPeR上Rank1=71.08%)。

與上面討論的分類問題不同,再識別問題意味着每個圖像都被映射到一個向量描述符。然后使用描述符之間的距離來匹配來自probe集和gallery集的圖像。Cumulative Match Characteristic(CMC)是評價再識別方法結果的常用方法。它是rank-k識別率(召回率)的一個圖,即匹配到的gallery圖像在距離probe圖像最近的k張圖像(根據描述符距離)內的概率。

大多數現有的研究對描述符映射進行訓練,並在同一數據集中評估它們,這些數據集包含來自特定攝像機網絡的具有相似成像條件的圖像。然而,有幾篇論文指出,當描述符在一個數據集上進行訓練,在另一個數據集上進行測試時,由此產生的再識別系統的性能會顯著下降。因此,很自然地將這種跨域的評估作為域自適應問題處理,其中每個攝像機網絡(數據集)構成一個域。

最近,有幾篇論文的再識別性能有了顯著提高 (Zhang and Saligrama, 2014; Zhao et al., 2014; Paisitkriangkrai et al., 2015) ,Ma et al.(2015)報告了cross-data-set評價情景的良好結果。目前,深度學習方法(Yi et al., 2014)並沒有達到最先進的結果,這可能是由於訓練集的大小有限。因此,域自適應是改進深度再識別描述符的一個可行方向。

 

5.3.1 Data Sets and Protocols

繼Ma et al.(2015)之后,我們使用PRID (Hirzer et al.), VIPeR (Gray et al., 2007), CUHK (Li and Wang, 2013) 作為我們實驗的目標數據集。PRID數據集有兩個版本,如Ma et al.(2015),我們使用single-shot的那個版本。它包含來自相機A的385個人的圖像和來自相機B的749個人的圖像, 200個人出現在兩架相機中。VIPeR數據集也包含來自兩個攝像機的圖像,總共捕獲了632人,對於每個人,兩個攝像機視圖中的每個視圖都有一個圖像。CUHK的數據集由5對相機拍攝的圖像組成,每對相機拍攝某個人的兩張圖。我們只將包含第一對相機的數據集子集稱為CUHK/p1(因為大多數論文使用這個子集)。

我們對不同的數據集進行了廣泛的實驗,其中一個數據集作為一個源域,即,它被用來以一種監督的方式訓練對應probe和gallery圖像之間的描述符映射。第二個數據集用作目標域,因此來自該數據集的圖像無需probe-gallery也可使用。

更詳細地說,CUHK作為目標域時使用CUHK/p1進行實驗;CUHK作為源域時使用兩個設置(“whole CUHK”和CUHK/p1)進行實驗。以PRID為目標數據集,我們隨機選擇100個出現在兩個攝像機視圖中的人作為訓練集。其他100名來自A攝像機的人的圖像作為probe,所有來自B攝像機的圖像(不包括訓練中使用的圖像(共649張)作為測試時的gallery。對於VIPeR,我們隨機使用316人進行訓練,其他所有人進行測試。CUHK的971人分為485人進行訓練,486人進行測試。與Ma et al.(2015)不同,我們使用CUHK的第一對相機中的所有圖像,而不是從每個相機視圖中選擇一個人的圖像。我們還進行了兩次實驗,將整個CUHK數據集的所有圖像作為源域,VIPeR和PRID數據集作為目標域,與原文一樣(Yi et al., 2014)。

繼Yi et al.(2014)之后,我們用鏡像圖像增強了我們的數據,在測試期間,我們計算兩幅圖像之間的相似性分數,作為兩幅比較圖像不同翻轉所對應的四個分數的平均值。以CUHK為例,每個人的兩張相機視圖各有4張圖像(包括鏡像),則將所有16種組合的分數取平均值。

 

5.3.2 CNN architectures and Training Procedure

在我們的實驗中,我們使用Yi et al.(2014)描述的siamese架構(深度度量學習或DML)來學習源數據集上的深度圖像描述符。該體系結構包含兩個卷積層(包含7 × 7和5 × 5濾波器組),其次是ReLU和max pooling,以及一個全連接層,輸出500維的描述符。CNN內部有三個平行流用於處理圖像的三個部分:上、中、下。第一卷積層在三個部分之間共享參數,並將第二卷積層的輸出連接起來。在訓練過程中,我們按照Yi et al.(2014)的方法計算每個batch內500維特征之間的pairwise余弦相似度,並反向傳播batch內所有對的損失。

為了執行域對抗訓練,我們構建了一個DANN體系結構。特性提取器包括上面討論的兩個卷積層(其次是max-pooling和ReLU)。在這種情況下,標簽預測器被替換為包含一個全連接層的描述器預測器。域分類器在中間表征(x→500→1)中包含兩個全連接的層,其中包含500個單元。

對於描述符預測器中的驗證損失函數,我們使用了Yi et al.(2014)定義的具有相似參數的 Binomial Deviance損失:α = 2, β = 0.5, c = 2(負對的非對稱代價參數)。如5.2.2所示,域分類器將以邏輯損失進行訓練。

我們將學習率固定為0.001,momentum為0.9。采用了類似於5.2.2中所述的自適應schedule。我們還在第二個最大池化層的輸出串聯后插入了比率為0.5的dropout層。源數據使用128大小的batch,目標數據使用128大小的batch。

 

5.3.3 Results on Re-identification data sets

圖9以CMC曲線的形式顯示了八對數據集的結果。根據注釋問題的難度,我們要么訓練了50000次迭代(CUHK/p1→VIPeR, VIPeR→CUHK/p1, PRID→VIPeR),或訓練了20000次迭代(其他5對)。

經過足夠的迭代次數后,域對抗訓練不斷地提高了再識別的性能。對於涉及到PRID數據集的對,與其他兩個數據集比較不同,其改進是相當可觀的。總的來說,這證明了域對抗學習在分類問題之外的適用性。

圖10進一步說明了在VIPeR→CUHK/p1實驗中,自適應對學習到的描述符在源和目標集中的分布的影響。

 

6. Conclusion

本文提出了一種前饋神經網絡的域自適應方法,可以基於源域的大量標注數據和目標域的大量未標注數據進行大規模訓練。類似於許多以前的shallow和deep DA技術,自適應是通過對齊跨兩個域的特征分布來實現的。然而,與以前的方法不同的是,對齊是通過標准的反向傳播訓練完成的。

該方法受到Ben-David et al.(2006,2010)域適應理論的激勵和支持。DANN背后的主要思想是要求網絡隱藏層學習一種表征,這種表征可以預測源樣本標簽,但不能提供關於輸入域(源或目標)的信息。我們在shallow和deep前饋架構中都實現了這種新方法。后者通過引入一個簡單的梯度反轉層,允許在幾乎任何深度學習包中進行簡單實現。我們已經證明了我們的方法是靈活的,並在域自適應的各種基准上取得了最先進的結果,即用於情感分析和圖像分類任務。

我們的方法的一個方便的方面是,域自適應組件可以添加到幾乎任何可以用反向傳播訓練的神經網絡體系結構中。為此,我們通過實驗證明了該方法不僅適用於分類任務,而且可以用於其他前饋結構,例如用於行人再識別的描述符學習。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM