目錄
1 Co-teaching: 面向極度噪聲標簽的魯棒性深度神經網絡訓練模型 (NIPS 2018)
2 MixMatch: 一種全面的半監督學習方法 (NIPS 2019)
3 DivideMix: 采用半監督學習進行噪聲標簽學習 (ICLR 2020)
1 Co-teaching: 面向極度噪聲標簽的魯棒性深度神經網絡訓練模型 (NIPS 2018)
1.1 動機
帶噪聲標簽的深度學習實際上是一個挑戰,因為深度模型的容量非常大,在訓練過程中它們遲早可以完全記住這些噪聲標簽。然而,最近關於深度神經網絡記憶效果的研究表明,深度神經網絡會先記憶干凈標簽的訓練數據,然后再記憶嘈雜標簽的訓練數據。
1.2 貢獻
在本文中,我們提出了一種新的深度學習范式,稱為“Co-teaching”,以對抗噪聲標簽。即,我們同時訓練兩個深度神經網絡,並讓它們在每個小批處理中進行互教:首先,每個網絡前饋所有數據,選取一些可能是干凈標簽的數據;其次,兩個網絡相互通信,在這個小批量中應該使用哪些數據進行訓練;最后,每個網絡回傳由其對等網絡選擇的數據並更新自身網絡權重超參數。
本文的Co-teaching模型結構如下:
在Co-teaching中,兩個網絡有不同的初始化,所以有不同的學習能力,這樣的誤差會在信息交換的過程中被緩解。Co-teaching的兩個網絡,在交替過程中,由於網絡的不同參數初始化,會對其中的錯誤數據進行遺忘,即大概率不會擬合的很好,從而起到誤差累積的緩解作用。
算法偽碼:
1.3 實驗分析
本文的實驗在MNIST,CIFAR10和CIFAR100三種數據集上進行了實驗分析,具體如下:
超參數分析實驗:
1.4 我的思考
本文的模型具有普遍性,即其Co-teaching的選擇策略不會受到backbone的不同的影響,比如采用簡單的MLP網絡進行噪聲標簽訓練也是適用的。另外,本文的引用量也比較高,目前以達到五百多次,在噪聲標簽領域也是一篇影響力很大的文章,很多新的方法都會參考本文模型的思想。
另外,本文提出的神經網絡模型容易先對干凈標簽數據進行擬合,隨着訓練次數的上升,逐漸會對噪聲標簽數據進行擬合。這一現象可能也表明,在部分數據集上,並不是訓練的epoch次數越大越好,並且也讓我們對於神經網絡的偏好有了一種新的理解。
然而,本文的策略也有一個比較大的問題,其會遺忘網絡認定的噪聲標簽數據,如果遺忘率設定較大,則會導致模型難以學習到原始數據集的分布,導致預測性能較差,即很難對噪聲標簽率比較大的數據進行建模學習。而文章中,默認的遺忘率是0.2,相關最新文章也表明,在真實噪聲標簽數據集中,設定為0.3比較合理
2 MixMatch: 一種全面的半監督學習方法 (NIPS 2019)
2.1 動機
最近在訓練大型深度神經網絡方面取得的成功,在很大程度上要歸功於大型含標簽數據集的存在。然而,對於許多學習任務來說,收集有標記的數據是昂貴的,因為它必然涉及到專家知識,例如醫療領域,需要相關專業醫生來對數據進行打標簽。
半監督學習已經被證明是利用無標記數據來減輕對大型標記數據集的依賴的一個強有力的范例。同時,半監督學習通過利用未標記數據,在很大程度上減輕了模型對標記數據的需求。
2.2 貢獻
本文通過采用數據增強對無標注數據進行標簽猜測,並結合MixUp混合有標簽和無標簽數據的策略,提出了一種新的半監督學習方法:MixMatch。
(1)多次數據增強,平均加Sharpen策略進行標簽猜測
具體原理公式如下:
(2)結合改進的MixUp策略,獲取經過數據增強和標簽猜測處理后的含標注的數據和含猜測標注的數據
最后,看一下MixMatch的整理算法流程和損失函數的設定:
損失函數:
2.3 實驗分析
本文在CIFAR10、CIFAR100、SVHN和STL-10四種數據集上進行了半監督實驗分析。其中含標簽的數據,從250-4000設定,其余采用無標注數據來進行分析。
相關實驗結果表明本文的MixMatch算法能夠在含250組標注數據的情況下,取得baseline算法需要4000組甚至5000組標注數據的性能。具體實驗結果如下:
2.4 我的思考
本文算法中最重要的環節,是數據增強,而這一步驟限制了本文算法難以應用到一般的序列化數據集上,即非圖像數據一般難以在下游任務應用之前合理地利用數據增強來提高模型的性能。
然而,本文對含標注的數據采用交叉熵損失函數,對無標簽的數據采用均方誤差損失函數的思路,可以借鑒。另外,本文最大的一個亮點在於猜測標簽步驟中采用了Sharpen方法,而這一處理機制在本文的消融實驗表明是本文算法的核心組成之一,而另一核心組成則是MixUp機制。
因此,在於后續研究半監督學習時,可以嘗試采用MixUp和Sharen以及均方誤差損失函數的思路來對模型的性能進行嘗試性調節。
3 DivideMix: 采用半監督學習進行噪聲標簽學習 (ICLR 2020)
3.1 動機
眾所周知,深度神經網絡的建模學習非常依賴標簽。在使用深度網絡進行學習時,為了降低打標簽的成本,人們做出了大量的努力。兩個突出的方向包括使用帶噪標簽的學習和利用無標簽數據的半監督學習。
3.2 貢獻
在這項工作中,我們提出了DivideMix,一個利用半監督學習技術學習帶噪聲標簽的新框架。其中,DivideMix采用混合模型對單樣本損失分布進行建模,動態地將訓練數據划分為干凈樣本的有標簽數據集和噪聲樣本的無標簽數據集,並對有標簽數據和無標簽數據進行半監督訓練。為了避免確認偏差,我們同時訓練了兩個不同的網絡,其中每個網絡使用從另一個網絡的數據集划分(Co-teaching思想)。在半監督訓練階段,我們改進了MixMatch策略,分別對已標注樣本和未標注樣本進行標簽共細化和標簽共猜測。
本文的樣本交互選取策略其實和2018年的NIPS的樣本Loss選擇策略很類似,一個是在訓練的Loss層面進行樣本選擇,一個是在網絡開始訓練時就選定好干凈的含標簽數據,具體模型的算法偽碼如下:
在MixMatch基礎上,添加了對含標簽數據的數據增強和標簽認定的步驟,具體如下:
另外,本文提到了采用熵來促使模型學習不對稱的噪聲數據,具體如下:
在模型的整體Loss方面添加了正則化Loss,從而使得模型能夠有效區分不同類的預測能力,具體如下:
3.3 實驗分析
本文在CIFAR10, CIFAR100, Clothing1M和WebVision四種數據集上進行了實驗,具體如下:
消融實驗結果如下:
3.4 我的思考
本文最大的亮點是其最終的實驗結果提升幅度較大,也是編委和評審專家最認同的一點。而文章的整體算法模型和創新都統一只給了6分。因此,在論文的創新點方面,如果最大化地提升最終的實驗結果也是一個不錯突破點。
另外,看了ICLR上的相關討論和評分審稿意見,得出本文的模型過於復雜,並且可能並不太可能成為主流的噪聲標簽框架模型。但是,本文的實驗結果確需要被最新模型拿來對比,即本文模型能夠成為一個Strong baseline。
4 Boosting Co-teaching: 標簽噪聲的壓縮正則化 (CVPR 2021)
4.1 動機
本文研究了標簽噪聲存在下的圖像分類模型的學習問題。我們重新討論一個簡單的名為壓縮正則化的Nested Dropout。我們發現Nested Dropout雖然最初被提出用於快速信息檢索和自適應數據壓縮,但可以適當地正則化神經網絡來對抗標簽噪聲。
此外,由於其簡單性,它可以很容易地與Co- teaching結合,以進一步提高性能。
4.2 貢獻
我們最終的模型仍然簡單而有效:它在兩個具有標簽噪聲的真實數據集Clothing1M和ANIMAL-10N上取得了與最先進的方法相當甚至更好的性能。在Clothing1M上,我們的方法獲得了74.9%的准確率,略優於DivideMix。
本文希望其提出的簡單方法可以作為標簽噪聲領域一個強大的baseline。
Nested Dropout原理如下:
4.3 實驗分析
本文實驗在Clothing 1M和ANIMAL-10N兩個真實的噪聲標簽數據集上執行了實驗,具體如下:
超參數分析:
4.4 我的思考
本文的Dropout策略很大可能對backbone的要求比較高,而且比較偏向圖像數據集,對於一般的序列化或者低維數據集,其性能可能無法展現。另外,本文的類似Dropout策略,有種特征選擇的思維,即選取其中能夠區分樣本的對於維度的representation。
相比之下,Co-teaching策略則是對於backbone的要求較低,即其是具有較高的普遍性。不過,本文的Nested Dropout的策略,很可能會讓相關研究看看特征選擇或者去探究dropout策略真正起作用的實質。