《別讓數據坑了你!用置信學習找出錯誤標注》作者:JayLou婁傑。置信學習/帶噪學習


原文鏈接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw
論文鏈接:https://arxiv.org/abs/1911.00068
帶噪學習:https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise
開源工具:https://github.com/cgnorthcutt/cleanlab

錯誤標注很普遍,如下圖所示,QuickDraw、MNIST和Amazon Reviews數據集中就存在錯誤標注。

置信學習三個步驟:

  • Count:估計噪聲標簽和真實標簽的聯合分布;
  • Clean:找出並過濾掉錯誤樣本;
  • Re-Training:過濾錯誤樣本后,重新調整樣本類別權重,重新訓練;

Count包括四步驟:

  • 交叉驗證
    • 得到n個樣本,m個類別的n*m的矩陣
    • 統計每個人工標定類別j的平均概率tj作為置信度閾值
    • 計算每個樣本真實類別,最大概率pij且pij大於tj
  • 計算計數矩陣(類似混淆矩陣)
  • 標定計數矩陣,讓計數矩陣的總和與數據總量相同
  • 估計噪聲標簽和真實標簽的聯合分布,也就是將計數矩陣歸一化得到Q

Clean有4種方法:

  • 過濾最大pij和人工標記不一致的數據;
  • 過濾計數矩陣中非對角單元的樣本;
  • 對於類別c,選取n*p個樣本過濾,其中p是聯合分布矩陣中除Q(c,c)之外的概率和;
  • 對於計數矩陣非對角單元,選取n*p個樣本過濾,p是聯合分布矩陣中計數矩陣的單元對應的概率;

Re-Training

  • 根據Q修正loss權重
  • 采取Co-Teaching框架

本方法和置信學習中的SOTA方法Mentornet相比,噪聲數據占比40%時,多組實驗平均提升34%。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM