樣本不均衡下的分類損失函數


  通常二分類使用交叉熵損失函數,但是在樣本不均衡下,訓練時損失函數會偏向樣本多的一方,造成訓練時損失函數很小,但是對樣本較小的類別識別精度不高。

解決辦法之一就是給較少的類別加權,形成加權交叉熵(Weighted cross entropy loss)。今天看到兩個方法將權值作為類別樣本數量的函數,其中有一個很有意思就錄在這里。

         (http://cn.arxiv.org/pdf/1711.05225v3)

上邊說明的時,正負樣本的權值和他們的對方數量成比例,舉個例子,比如正樣本有30,負樣本有70,那么正樣本的權w+=70/(30+70)=0.7,負樣本的權就是w-=30/(30+70)=0.3,

這樣算下來的權值是歸一的。這種方法比較直觀,普通,應該是線性的。

                          (https://arxiv.org/pdf/1705.02315v4.pdf)

這個的權值直接就是該類別樣本數的反比例函數,是非線性的,相比於上邊的很有意思,提供了另一種思路。為了統一期間還是使用w+,w-表示這里的beta P和beta N,

舉個例子,比如正樣本有30,負樣本有70,那么正樣本的權w+=(30+70)/30=3.33,負樣本的權就是w-=(30+70)/70=1.42。

 

第三中方法:Focal loss

https://www.jianshu.com/p/204d9ad9507f

https://arxiv.org/pdf/1708.02002.pdf

 

第四種方法:GHM-C loss

 

https://arxiv.org/pdf/1811.05181.pdf

 

 

 

以后看到后繼續補充。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM