如何解決回歸任務數據不均衡的問題?


摘要:現有的處理不平衡數據/長尾分布的方法絕大多數都是針對分類問題,而回歸問題中出現的數據不均衡問題確極少被研究。

本文分享自華為雲社區《如何解決回歸任務數據不均衡的問題?》,原文作者:PG13。

現有的處理不平衡數據/長尾分布的方法絕大多數都是針對分類問題,而回歸問題中出現的數據不均衡問題確極少被研究。但是,現實很多的工業預測場景都是需要解決回歸的問題,也就是涉及到連續的,甚至是無限多的目標值,如何解決回歸問題中出現的數據不均衡問題呢?ICML2021一篇被接收為Long oral presentation的論文:Delving into Deep Imbalanced Regression,推廣了傳統不均衡分類問題的范式,將數據不平衡問題從離散值域推廣到了連續值域,並提出了兩種解決深度不均衡回歸問題的方法。

主要的貢獻是三個方面:1)提出了一個深度不均衡回歸(Deep Imbalanced Regression, DIR)任務,定義為從具有連續目標的不平衡數據中學習,並能泛化到整個目標范圍;2)提出了兩種解決DIR的新方法,標簽分布平滑(label distribution smoothing, LDS)和特征分布平滑(feature distribution smoothing, FDS),來解決具有連續目標的不平衡數據的學習問題;3)建立了5個新的DIR數據集,包括了CV、NLP、healthcare上的不平衡回歸任務,致力於幫助未來在不平衡數據上的研究。

數據不平衡問題背景

現實世界的數據通常不會每個類別都具有理想的均勻分布,而是呈現出長尾的偏斜分布,其中某些目標值的觀測值明顯較少,這對於深度學習模型有較大的挑戰。傳統的解決辦法可以分為基於數據基於模型兩種:基於數據的解決方案無非對少數群體進行過采樣和對多數群體進行下采樣,比如SMOTE算法;基於模型的解決方案包括對損失函數的重加權(re-weighting)或利用相關的學習技巧,如遷移學習、元學習、兩階段訓練等。

但是現有的數據不平衡解決方案,主要是針對具有categorical index的目標值,也就是離散的類別標簽數據。其目標值屬於不同的類別,並且具有嚴格的硬邊界,不同類別之間沒有重疊。現實世界很多的預測場景可能涉及到連續目標值的標簽數據。比如,根據人臉視覺圖片預測年齡,年齡便是一個連續的目標值,並且在目標范圍內可能會高度失衡。在工業領域中,也會發生類似的問題,比如在水泥領域,水泥熟料的質量,一般都是連續的目標值;在配煤領域,焦炭的熱強指標也是連續的目標值。這些應用中需要預測的目標變量往往存在許多稀有和極端值。在連續域的不平衡問題在線性模型和深度模型中都是存在的,在深度模型中甚至更為嚴重,這是因為深度學習模型的預測往往都是over-confident的,會導致這種不平衡問題被嚴重的放大。

因此,這篇文章定義了深度不平衡回歸問題(DIR),即從具有連續目標值的不平衡數據中學習,同時需要處理某些目標區域的潛在確實數據,並使最終模型能夠泛化到整個支持所有目標值的范圍上。

https://bbs-img.huaweicloud.com/blogs/img/images_162328840109677.png

不平衡回歸問題的挑戰

解決DIR問題的三個挑戰如下:

  1.  對於連續的目標值(標簽),不同目標值之間的硬邊界不再存在,無法直接采用不平衡分類的處理方法。
  2.  連續標簽本質上說明在不同的目標值之間的距離是有意義的。這些目標值直接告訴了哪些數據之間相隔更近,指導我們該如何理解這個連續區間上的數據不均衡的程度。
  3.  對於DIR,某些目標值可能根本沒有數據,這為對目標值做extrapolation和interpolation提供了需求。

解決方法一:標簽分布平滑(LDS)

首先通過一個例子展示一下當數據出現不均衡的時候,分類和回歸問題之間的區別。作者在兩個不同的數據集:(1)CIFAR-100,一個100類的圖像分類數據集;(2)IMDB-WIKI,一個用於根據人像估算年齡(回歸)的圖像數據集,進行了比較。通過采樣處理來模擬數據不平衡,保證兩個數據集具有完全相同的標簽密度分布,如下圖所示:

https://bbs-img.huaweicloud.com/blogs/img/images_162328846042796.png

然后,分別在兩個數據集上訓練一個ResNet-50模型,並畫出它們的測試誤差的分布。從圖中可以看出,在不平衡的分類數據集CIFAR-100上,測試誤差的分布與標簽密度的分布是高度負相關的,這很好理解,因為擁有更多樣本的類別更容易學好。但是,連續標簽空間的IMDB-WIKI的測試誤差分布更加平滑,且不再與標簽密度分布很好地相關。這說明了對於連續標簽,其經驗標簽密度並不能准確地反映模型所看到的不均衡。這是因為相臨標簽的數據樣本之間是相關的,相互依賴的。

標簽分布平滑:基於這些發現,作者提出了一種在統計學習領域中的核密度估計(LDS)方法,給定連續的經驗標簽密度分布,LDS使用了一個對稱核函數k,用經驗密度分布與之卷積,得到一個kernel-smoothed的有效標簽密度分布,用來直觀體現臨近標簽的數據樣本具有的信息重疊問題,通過LDS計算出的有效標簽密度分布結果與誤差分布的相關性明顯增強。有了LDS估計出的有效標簽密度,就可以用解決類別不平衡問題的方法,直接應用於解決DIR問題。比如,最簡單地一種make sence方式是利用重加權的方法,通過將損失函數乘以每個目標值的LDS估計標簽密度的倒數來對其進行加權。

https://bbs-img.huaweicloud.com/blogs/img/images_162328850124979.png

解決方法二:特征分布平滑(FDS)

如果模型預測正常且數據是均衡的,那么label相近的samples,它們對應的feature的統計信息應該也是彼此接近的。這里作者也舉了一個實例驗證了這個直覺。作者同樣使用對IMDB-WIKI上訓練的ResNet-50模型。主要focus在模型學習到的特征空間,不是標簽空間。我們關注的最小年齡差是1歲,因此我們將標簽空間分為了等間隔的區間,將具有相同目標區間的要素分到同一組。然后,針對每個區間中的數據計算其相應的特征統計量(均值、方差)。特征的統計量之間的相似性可視化為如下圖:

https://bbs-img.huaweicloud.com/blogs/img/images_162328853651222.png
紅色區間代表anchor區間,計算這個anchor label與其他所有label的特征統計量(即均值、方差)的余弦相似度。此外,不同顏色區域(紫色,黃色,粉紅色)表示不同的數據密度。從圖中可以得到兩個結論:

  1.  anchor label和其臨近的區間的特征統計量是高度相似的。而anchor label = 30 剛好是在訓練數據量非常多的區域。這說明了,當有足夠多的數據時,特征的統計量在臨近點是相似的。
  2.  此外,在數據量很少的區域,如0-6歲的年齡范圍,與30歲年齡段的特征統計量高度相似。這種不合理的相似性是由於數據不均衡造成的。因為,0-6歲的數據很少,該范圍的特征會從具有最大數據量的范圍繼承其先驗。

特征分布平滑:受到這些啟發,作者提出了特征分布平滑(FDS)。FDS是對特征空間進行分布的平滑,本質上是在臨近的區間之間傳遞特征的統計信息。此過程的主要作用是去校准特征分布的潛在的有偏差的估計,尤其是對那些樣本很少的目標值而言。

https://bbs-img.huaweicloud.com/blogs/img/images_162328857000880.png
具體來說,有一個模型,f代表一個encoder將輸入數據映射到隱層的特征,g作為一個predictor來輸出連續的預測目標值。FDS會首先估計每個區間特征的統計信息。這里用特征的協方差代替方差,來反映特征z內部元素之間的關系。給定特征統計量,再次使用對稱核函數k來smooth特征均值和協方差的分布,這樣可以拿到統計信息的平滑版本。利用估計和平滑統計量,遵循標准的whitening and re-coloring過程來校准每個輸入樣本的特征表示。那么整個FDS過程可以通過在最終特征圖之后插入一個特征的校准層,實現將FDS集成到深度網絡中。最后,在每個epoch采用了動量更新,來獲得對訓練過程中特征統計信息的一個更穩定和更准確的估計。

基准DIR數據集

  1.  IMDB-WIKI-DIR(vision, age):基於IMDB-WIKI數據集,從包含人面部的圖像來推斷估計相應的年齡。
  2.  AgeDB-DIR(vision, age):基於AgeDB數據集,同樣是根據輸入圖像進行年齡估計。
  3.  NYUD2-DIR(vision, depth):基於NYU2數據集,用於構建depth estimation的DIR任務。
  4.  STS-B-DIR(NLP, test similarity score):基於STS-B數據集,任務是推斷兩個輸入句子之間的語義文本的相似度得分。
  5.  SHHS-DIR(Healthcare, health condition score):基於SHHS數據集,該任務是推斷一個人的總體健康評分。

具體的實驗可以查看該論文,這里附上論文原文以及代碼地址:

[論文]:https://arxiv.org/abs/2102.09554

[代碼]:https://github.com/YyzHarry/imbalanced-regression

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM