【半監督學習】Π-Model、Temporal Ensembling、Mean Teacher


Π-Model、Temporal Ensembling 和 Mean Teacher 三者都是利用一致性正則(consistency regularization)來進行半監督學習(semi-supervised learning)。

一致性正則要求一個模型對相似的輸入有相似的輸出,即給輸入數據注入噪聲,模型的輸出應該不變,模型是魯棒的。

Π-Model


Fig.1 Π-Model

Π-Model 可以說是最簡單的一致性正則半監督學習方法了,訓練過程的每一個 epoch 中,同一個無標簽樣本前向傳播(forward)兩次,通過 data augmentation 和 dropout 注入擾動(或者說隨機性、噪聲),同一樣本的兩次 forward 會得到不同的 predictions,Π-Model 希望這兩個 predictions 盡可能一致,即模型對擾動魯棒。

Temporal Ensembling for Semi-Supervised Learning 這篇文章應該是正式提出 Π-Model 的論文,Semisupervised learning with ladder networks 這篇提出的是 Γ-model,Π-Model 是其簡化版。Π-Model 在一個 epoch 對每個無標簽樣本只 forward 兩次,而如果是 forward 多次,那么就是 transformation/stability 方法,所以 Π-Model 是 transformation/stability 方法的特例。

Temporal Ensembling


Fig.2 Temporal Ensembling

Temporal Ensembling 對 Π-Model 的改進在於,訓練過程的每一個 epoch 中,同一個無標簽樣本前向傳播(forward)一次。那么另一次怎么辦呢?Temporal Ensembling 使用之前 epochs 得到的 predictions 來充當,具體做法是用指數滑動平均(Exponentially Moving Average,EMA)的方式計算之前 epochs 的 predictions,使得 forward 的次數減少一半,速度提升近兩倍。

Temporal Ensembling 的 ensembling在哪?通過 EMA 來平均之前 epochs 的模型的輸出,這隱式地利用了集成學習的思想。

一個問題,利用 EMA 能得到當前 epoch 下模型准確的 prediction 嗎?在訓練前期,模型經過一個 epoch 訓練提升就很大,這個時候很可能就是不准的,即使 EMA 有集成學習的思想;在訓練后期,模型效果一個 epoch 提升不明顯或者較小,這個時候 EMA 得到的 prediction 和當前 epoch 下的 prediction 應該就相近了。而隨訓練過程逐漸增大無標簽樣本權重 \(w(t)\) 可以緩解這個問題。

Mean Teacher


Fig.3 Mean Teacher

Mean Teacher 則是 Temporal Ensembling 的改進版,Mean Teacher 認為 Temporal Ensembling 對模型的預測 predictions 進行指數滑動平均(Exponentially Moving Average,EMA)並不好,因為 Temporal Ensembling 每個 epoch 才進行一次 EMA,而如果改成對模型權重進行 EMA 的話,每個 step 就可以進行一次,這樣豈不是更好。(在 mini-batch 訓練模式中,一個 epoch 有很多 steps,一個 step 理解為模型權重的一次更新。batch size 一定時,數據集越大,一個 epoch 含有的 step 數越多。)

Mean Teacher 顧名思義,就是有一個進行了平均(EMA)的 teacher 模型。有了 teacher 自然有 student,這個概念在知識蒸餾和模型壓縮領域經常能看見。Mean Teacher 中的 student 模型就是我們正常訓練的模型,而 teacher 模型的權重則是由 student 模型的權重進行 EMA 而得,teacher 模型不參與反向傳播(back-propagation)過程。

Mean Teacher 需要對每個 unlabelled instance 進行 兩次 forward,一次 student,一次 teacher。

Mean Teacher 在原論文中設定,在 ramp-up 階段設置 EMA decay 為 0.99,而在之后的訓練中設為 0.999。這是因為初始時 student 模型訓練的很快,而 teacher 需要忘記之前的、不正確的 student 權重;在 student 提升很慢的時候, teacher 記憶越長越好。

References

[1] Laine, S., Aila, T. (2016). Temporal Ensembling for Semi-Supervised Learning arXiv https://arxiv.org/abs/1610.02242
[2] Rasmus, A., Valpola, H., Honkala, M., Berglund, M., Raiko, T. (2015). Semi-Supervised Learning with Ladder Networks arXiv https://arxiv.org/abs/1507.02672
[3] Sajjadi, M., Javanmardi, M., Tasdizen, T. (2016). Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning arXiv https://arxiv.org/abs/1606.04586
[4] Tarvainen, A., Valpola, H. (2017). Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results arXiv https://arxiv.org/abs/1703.01780


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM