Partial Transfer Learning with Selective Adversarial Networks學習筆記


Partial Transfer Learning with Selective Adversarial Networks學習筆記

Abstract

作者針對部分預適應,提出了選擇性對抗網絡(SAN),它通過分離源域非共享類別的樣本來避免負遷移,同時通過最大程度地匹配共享類別空間中的樣本分布來促進正遷移

introduce

本文介紹了選擇性對抗網絡,它極大地擴展了深度對抗適應的能力,以解決從大規模域到小規模域的部分遷移學習。SAN將共享類別空間中的源域樣本分布和目標域樣本分布對齊,更重要的是,將源域中非共享類別中的樣本分離。與以前的方法相比,該方法一個關鍵的改進是能夠同時促進相關數據的正向遷移和減輕不相關數據的負向遷移,還可以在端到端框架中進行訓練。

Partial Transfer Learning

本文作者提出部分域適應,源域表示為\(D_s=\{(x_i,y_i)\}^{n_s}_{i=1}\),其中\(n_s\)表示源域樣本的數量,源域擁有類別的個數為\(|C_s|\)。目標域表示為\(D_t=\{x_i\}^{n_s+n_t}_{i=n_s+1}\),其中\(n_t\)表示目標域未標注樣本的數量,目標域擁有類別的個數為\(|C_t|\)。目標域的類別空間是源域類別空間的子集:\(C_t\sub C_s\),即\(|C_s|>|C_t|\).源域與目標域的概率分布分別由p與q表示,且$p_{C_t}\neq q \(,其中\)p_{C_t}\(表示源域中屬於目標域類別空間\)C_t\(的樣本的分布。本文的目標就是設計一個深度神經網絡模型,通過學習可遷移的特征\)f=G_f(x)\(以及適應分類器\)y=G_y(f)$來減小域間差異。

在部分域適應中存在兩大難點:

  • 由於目標域的樣本未標注,源域域目標域的概率分布不同,所以在源域\(D_s\)訓練的分類器\(G_y\)不能直接運用到目標域\(D_t\)
  • 無法得知源域類別空間\(C_s\)中的哪部分與目標域類別空間\(C_t\)共享,因為\(C_t\)在訓練中是無法訪問的。

一方面,該方法要減輕由源域中非共享類別\(C_s/C_t\)造成的負遷移;另一方面,減少\(p_{C_t}\)\(q\)之間的分布差異,促進正向遷移,實現共享類別空間\(C_t\)中的知識遷移。

Domain Adversarial Network

對抗網絡能夠有效地提取可遷移特征,其中包括一個域分類器\(G_d\)來區別源域與目標域,還有一個特征提取器經過微調后來欺騙域分類器。

為了得到域不變性特征\(f\),通過最大化域分類器\(G_d\)的損失來學習特征提取器\(G_f\)的參數\(\theta_f\),通過最小化域分類器的損失來學習\(G_d\)的參數\(\theta_d\)的參數。同時還要最小化標簽分類器\(G_y\)的損失。

則對抗網絡的目標函數為:

\[C_0(\theta_f,\theta_y,\theta_d)=\frac{1}{n_s}\sum\limits_{x_i\in D_s}L_y(G_y(G_f(x_i)),y_i)-\frac{\lambda}{n_s+n_t}\sum\limits_{x_i \in D_s\cup D_t}L_d(G_d(G_f(x_i)),d_i)(1) \]

其中的\(\lambda\)參數為權衡參數。當訓練收斂后,參數\(\hat{\theta}_f,\hat{\theta}_y,\hat{\theta}_d\)表達公式(1)的鞍點:

\[(\hat{\theta}_f,\hat{\theta}_y)=arg\min\limits_{\theta_f,\theta_y}C_0(\theta_f,\theta_y,\theta_d) \]

\[(\hat{\theta}_d)arg\max\limits_{\theta_d}C_0(\theta_f,\theta_y,\theta_d) \]

Selective Adversarial Network

由於源域的非共享類別\(C_s/C_t\)會造成負遷移,所以要將屬於非共享類別的樣本分離。

作者將域分類器分為\(|C_s|\)個類別級的域分類器\(G^k_d,k=1,...|C_s|\),每個分類器負責類別為k的源域樣本與目標域樣本的匹配。但是由於目標域的樣本未標注,所以對於一個目標域的樣本來說,我們不知道應該使用哪個域分類器\(G^k_d\)。於是作者將類別預測器\(\hat{y}_i=G_y(x_i)\)的輸出作為該目標域樣本\(x_i\)屬於對應源域類別空間\(C_s\)中某個類別的概率

即可以使用\(\hat{y}_i\)的輸出來表示每個目標域樣本使用\(|C_s|\)個域分類器\(G^k_d\)的概率。這個概率加權域鑒別器損失為:

\[L'_d=\frac{1}{n_s+n_t}\sum\limits^{|C_s|}\limits_{k=1}\sum\limits_{x_i\in D_s\cup D_t}\hat{y}_i^kL^k_d(G^k_d(G_f(x_i)),d_i) \]

\(L^k_i\)為對應第k個\(G^k_d\)域分類器的交叉熵損失,\(d_i\)表示為樣本\(x_i\)的域標簽。

與公式(1)中的單一域分類器相比,這里的多級域分類器擁有細粒度適應性,這個細粒度適應性擁有以下好處:

  1. 它避免了將每個樣本強硬分配給一個域分類器,這對於目標域樣本來說往往是不准確的
  2. 它避免了負遷移,因為每個樣本只與一個或幾個最相關的類對齊,而不相關的類被概率加權域分類器損失過濾掉
  3. 概率加權域分類器損失將不同的損失放在不同的域分類器上,它自然地學習具有不同參數\(\theta^k_d\)的多個域分類器;這些具有不同參數的域分類器可以促進每個樣本的正向遷移。

image-20201112103252605

SAN模型架構圖:其中f表示提取出來的特征,\(\hat{y}\)表示預測的樣本標簽,\(\hat{d}\)表示預測的域標簽,\(G_f\)表示特征提取器,\(G_y\)\(L_y\)表示標簽預測器與其損失,\(G^k_d\)\(L^k_d\)表示域分類器和它的損失。藍色部分表示類別級對抗網絡。

除了上面的實例級權重機制,作者還提出了另外一個類別級權重方法來進一步減小源域非共享類別樣本造成的負遷移影響。

作者觀察到只有負責目標域類別的域分類器對促進正遷移有效,而其他負責源域非共享類別的分類器僅引入噪聲並惡化共享類別空間中源域和目標域之間的正遷移。因此,需要對負責源域非共享類別的域分類器進行降權,這可以通過對這些域分類器進行類級權重衡量來實現。

如果一個目標域樣本不屬於非共享類別,那么它的概率\(y^k_i,k\in C_s/C_t\)就會很小,於是作者這樣來對域分類器進行降權

\[L_d=\frac{1}{n_s+n_t}\sum\limits_{k=1}\limits^{|C_s|}[(\frac{1}{n_t}\sum\limits_{x_i\in D_t}\hat{y}^k_i)\times(\sum\limits_{x_i\in(D_s\cup D_t)}\hat{y}^k_iL^k_d(G^k_d(G_f(x_i)),d_i)](4) \]

其中\((\frac{1}{n_t}\sum\limits_{x_i\in D_t}\hat{y}^k_i)\)表示每個類別的類別級權重。

盡管公式(4)可以選擇性的進行知識的遷移,但是它依賴於概率\(\hat{y}_i=G_y(x_i)\).所以作者進一步使用熵最小化原理來進行標簽預測器\(G_y\)的精煉。這個准則是通過在目標域\(D_t\)上最小化概率\(\hat{y}^k_i\)上的熵E來實現的:

\[E=\frac{1}{n_t}\sum\limits_{x_t\in D_t}(H(G_y(G_f(x_i))))(5) \]

其中\(H(·)\)表示條件熵損失函數,\(H(G_y(G_f(x_i)))=-\sum\limits^{|C_s|}\limits_{k=1}\hat{y}^k_ilog\hat{y}^k_i\)

通過最小化公式(5),標簽預測器\(G_y(x_i)\)可以直接訪問目標域未標注樣本,並且將修改自身以通過目標低密度區域,從而以最小的預測不確定性給出更准確的概率\(\hat{y}_i\)

總的目標函數為:

image-20201112115253734

找到參數\(\hat{\theta_f},\hat{\theta_y},\hat{\theta_d^k}\)滿足:

image-20201112115318657


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM