AFN—Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation學習筆記
tip
文章通過VisDA2017源模型上源域和目標域樣本的特征可視化推導了兩個假設:錯位特征范數假設與較小特征范數假設。在每次迭代中,將特征范數自適應應用於任務特定的特征。而對應兩個假設,作者提出兩種新的域適應方法:對於AFN的硬變換與逐步變換。硬變換在實驗中證明之前的假設錯誤,而在逐步變換SAFN中,當前的特征范數要接近於上一次迭代的特征二范數+\(\Delta r\),以漸進的方式學習具有更大范數的特定任務特征。
文章還提出了針對模型魯棒性的衡量方法。
Abstract
在這篇文章中,作者從經驗上揭示了目標域的不穩定辨別主要源於它相對於源域的小得多的特征范數。為此,作者提出了一種新的無參數自適應特征范數方法。逐步調整兩個領域的特征范數到范圍較大的值可以導致顯著的遷移效果,這意味着那些具有更大范數的特定任務特征更容易遷移
。我們的方法成功地統一了標准域和部分域自適應的計算,對負遷移問題具有更強的魯棒性。
introduce
模型退化的概念已經在數據分析團體中得到很好的認可,但是很少有方法來分析該現象的內在原因。因此,現有的統計差異的方法可能無法精確地描述域遷移,並且着這種差異可能無法保證跨域的安全遷移。 在本文中,作者從一個堅實的經驗觀察中向揭示模型退化的本質邁出了一步。
該圖為源模型上源域和目標域樣本的特征可視化。這種技術被廣泛用於描述softmax相關目標下的特征嵌入。具體來說,我們將特定於任務的特征設置為二維,並重新訓練模型。與t-SNE不同的是,這里的空白空間的大小考慮了兩個數據點之間的相似性,這種可視化地圖使我們能夠解釋特征范數的大小以及類間和類內的差異。如圖所示,目標樣本傾向於在小范數(即低半徑)區域中碰撞
,該區域容易受到決策邊界的微小角度變化的影響
,並導致不穩定的辨別。
從目前的觀察來看,仍有兩種假設的解釋:
- 錯位特征范數假設:源域和目標域之間的域遷移依賴於它們錯位的特征范數期望。將兩個域的平均特征范數與任意共享標量相匹配,可以產生相似的傳輸增益。
- 較小特征范數假設:對於目標任務來說,域遷移實質上依賴於具有較小范數的過多的小特征信息。盡管沒有嚴格的比對,但調整目標特征遠離小范數區域可以實現安全遷移。
作者提出了無參數的 Adaptive Feature Norm (AFN) 方法,首先,作者提出了一個簡單而有效的統計距離來表征跨域的均值-特征-范數差異。第二,作者設計了硬AFN,通過限制兩個域的期望特征范數來接近於一個共享標量,從而彌合域間差異。
這表明,范數對齊的特征可以帶來有效的遷移,結果可以使用一個大標量來進一步改善。為了以一種穩定的方式探索一個更充分的大特征范數,我們提出了逐步AFN法
,以鼓勵對跨域的每個個體樣本進行漸進的特征范數擴大
。正如逐步AFN揭示的那樣,實現成功遷移的關鍵是在於將目標樣本適當地提升到較大范數的區域,而嚴格的比對是多余的。
作者認識到,那些具有更大范數的特定任務特征意味着具有更多的信息可傳遞性
。作者將較大范數約束
放在任務特定的特征上,以促進目標域上更具信息性和可遷移性的計算。
值得注意的是,在部分域適應問題中,負遷移不僅來自共享類別中的無關樣本,還來自源域非共享類別中的無關數據。
作者的貢獻:
憑經驗揭示了模型退化的本質,目標域特征相對於源域特征的非常小的范數解釋了它們辨別的不穩定。
為部分域適應提出一種新的AFN方法,通過逐步調整兩個域的特征范數來適應大范圍的標量。
我們成功地統一了普通域適應和部分域適應中的計算方法,並且特征-范數-自適應方式對抵抗負遷移更為魯棒。
Method
Preliminaries
源域表示為\(D_s=\{(x_i^s,y_i^s)\}^{n_s}_{i=1}\),其中\(n_s\)表示源域樣本的數量,源域擁有類別的個數為\(|C_s|\)。目標域表示為\(D_t=\{x_i^t\}^{n_t}_{i=1}\),其中\(n_t\)表示目標域未標注樣本的數量,目標域擁有類別的個數為\(|C_t|\)。
Vanilla Setting:\(C_s=C_t\)
Partial Setting :\(C_s\supset C_t\)
L2-preserved Dropout
在這一部分中,作者首先證明了標准的drop操作是L1保持的。由於作者的算法是基於隱藏特征的L2范數計算的,因此我們引入以下L2保持的drop操作來實現我們的目標。
drop是深度神經網絡中常用的正則化技術。給定一個d維的向量\(x\),在訓練階段,隨機用\(a_k\sim P\)以概率\(p\)歸零向量中的某一維的數據:
為了在評估階段計算單位函數,輸出被進一步縮放一個因子\(\frac{1}{1-p}\),即
因為\(x_k\)和\(a_k\)是獨立的,所以在訓練和測試階段都隱含地保留了L1范數:
然而,在追求自適應L2特征范數時,將輸出縮放一個因子\(\frac{1}{\sqrt{1-p}}\)得到:
並滿足:
Framework
該方法的框架包括一個骨干網絡G和一個分類器F。現有的研究表明,深層特征最終會沿着網絡從一般過渡到特定,並且特征可遷移性在更高層會顯著下降。
在該方法中,G視為一個特征生成提取單元,它繼承了如ResNet等流行的網絡體系結構。F表示一個擁有l個全連接層的特定特征的分類器。作者將分類器前l-1層表示為\(F_f\),這叫做所謂的瓶頸特征嵌入,那些由\(F_f\)計算的特征在很大程度上依賴於特定的領域,並且不能安全地遷移到新的領域。使用最后一層作為\(F_y\)來計算類別的概率。\(G,F_f,F_y\)的參數分別表示為\(\theta_g,\theta_f,\theta_y\)。
作者的目的是探索一種僅使用源域監督
來計算域可遷移特征\(f=F_f(·)\)的自適應算法。另一方面,當統一關於普通和部分域適應的計算時,還要防御由源域中的非共享類別引起的負轉移效應。
AFN方法的模型框架。G表示特征提取模塊,F表示一個擁有l個全連接層的特定特征的分類器,每一層的形式都是FC-BN-ReLU-Dropout。在每次迭代中,將特征范數自適應應用於任務特定的特征,同時將源分類損失作為我們的優化目標。對於AFN的
硬變換(Hard)
,源樣本和目標樣本的平均特征范數被約束到一個共享標量
。對於逐步變換(Stepwise)
,我們鼓勵在步長為\(\Delta r\)的情況下對每個個體樣本進行漸進的特征范數擴大。為此,在自適應后遠離小范數區域,目標樣本可以在沒有任何監督的情況下被正確分類.
Hard Adaptive Feature Norm
基於錯位特征范數假設,作者提出了最大平均特征范數差異
(MMFND)來表征兩個分布之間的平均特征范數距離
,並驗證彌合這一統計域差距是否能導致可觀的遷移增益。MMFND定義為
其中函數類\(\mathcal{H}\)是由L2范數與深度表征模塊合成的所有可能函數的組合,\(h(x)=(||·||_2◦F_f◦G)(x)\).
直觀上,H類的函數足夠豐富,在輸入x上包含實質上的正實值函數,如果對函數類型沒有限制,上界會大大偏離零。為了避免這種情況發生,作者放置了一個限制性標量R來匹配相應的平均特征范數
。通過限制兩個域的平均特征范數分別收斂到共享平衡,域間隙將消失為零。我們通過硬自適應特征范數算法(HAFN)實現這一點:
優化目標由兩項組成:
源域分類器損失
\(L_y\),以便通過最小化源域已標記樣本上的softmax最大交叉熵來獲得任務區分特征,由等式(8)表示。其中\(p = p_1,...,p_{|C_s|}\)是分類器預測的softmax激活值,即\(p =softmax(F(G(x))\)- 通過最小化兩個域之間的特征范數差異來獲得域可遷移特征的
特征范數懲罰
,其中\(L_d(·)\)被視為L2距離,λ是權衡兩個目標的超參數。
通過執行HAFN將這種特征-規范差異與僅源域監督聯系起來,最終可以實現任務區分和域可轉移的特征。
然而,R的偏好設置仍未確定。正如之前錯位特征范數假設所指出的,將兩個域的特征范數期望與任意共享的真實值相匹配,應該會產生相似的遷移增益。但我們的是實驗結果發現這種說法並不正確。具體而言,盡管將兩個域的平均特征范數限制為一個相當小的值(例如,R = 1,即特征歸一化)已經顯示出有效的結果,但是,隨着R逐漸增加,所獲得的模型仍然傾向於在目標任務上實現更高的精度。為此,需要探索一個足夠大的R,並驗證特征-范數期望之間的嚴格對齊是否是必要的,這是由我們的較小特征范數假設揭示的。事實上,不幸的是,HAFN未能設置非常大的R,因為由特征范數懲罰產生的梯度最終可能導致爆炸。
Stepwise Adaptive Feature Norm
為了打破上述瓶頸,作者引入了一種稱為逐步自適應特征范數
(SAFN)的改進變體,以鼓勵模型以漸進的方式學習具有更大范數的特定任務特征
,如等式所示:
其中\(\theta=\theta_g\cup \theta_f\),\(\theta_0\)與\(\theta\)分別表示上次迭代和當前迭代中更新的模型參數,\(\Delta r\)表示表示控制特征范數放大的正剩余標量。
在每次迭代過程中,SAFN當前的特征范數要接近於上一次迭代的特征二范數+\(\Delta r\)。SAFN沒有指定硬值,而是使優化過程更加穩定,並且很容易在兩個目標之間進行權衡。為此,執行SAFN可以通過用更大的范數
生成更多的信息特征
來實現目標任務的更高精度
。值得注意的是,SAFN並沒有嚴格地彌合均值-特征-范數的差異,但可以選擇放置一個終端R來限制無限擴大,如E公式(10)所示。然而,我們的實證結果顯示,公式(10)替換了公式(9)中的第二項后會有稍微不同的結果。正如較小特征范數假設所指出的,一旦我們將目標樣本適當地調整到大范數區域,嚴格的比對就變得多余了.
Model Robustness Evaluation
作者提出了有意義的協議來評估給定算法的魯棒性,特別是在更一般的局部設置下。值得注意的是,在這種情況下,負遷移不僅是由共享類別中的不相關樣本引起的,也是由源域非共享類別中的不相關樣本引起的
。
使用\(A^{l\%}_{\mathcal{T}|C_t|}、A_{S|C_t\rightarrow|C_t|}、A_{S|C_s|\rightarrow \mathcal{T}_{|C_t|}}\)分別表示使用了\(l\%\)已標注樣本的精度、不包括源域非共享類別的精度、包括源域非共享類別的精度。
作者定義:
\(A^{l\%}_{\mathcal{T}|C_t|}-A_{S|C_t\rightarrow|C_t|}\):Closed Negative Gap(CNG):如果算法不能從另一個域的負面影響中獲得比僅僅標記幾個(例如,1%)目標數據更多的傳輸增益,就會產生負面影響,這在實際部署時是沒有價值的。
\(A_{S|C_t\rightarrow|C_t|}-A_{S|C_s\rightarrow|C_t|}\):Outlier Negative Gap, (ONG):測量由源域非共享類別引起的負面影響。
\(A^{l\%}_{\mathcal{T}|C_t|}-A_{S|C_s\rightarrow|C_t|}\):Partial Negative Gap, (PNG):揭示了算法是否有價值在SNG與PNG的潛在風險下進行遷移。一旦Gap差距值為正,負效應就會超過正增益,反之亦然。較大的絕對值意味着更絕望的負面影響或更令人鼓舞的正面收益。