原文鏈接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw
論文鏈接:https://arxiv.org/abs/1911.00068
帶噪學習:https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise
開源工具:https://github.com/cgnorthcutt/cleanlab
錯誤標注很普遍,如下圖所示,QuickDraw、MNIST和Amazon Reviews數據集中就存在錯誤標注。
置信學習三個步驟:
- Count:估計噪聲標簽和真實標簽的聯合分布;
- Clean:找出並過濾掉錯誤樣本;
- Re-Training:過濾錯誤樣本后,重新調整樣本類別權重,重新訓練;
Count包括四步驟:
- 交叉驗證
- 得到n個樣本,m個類別的n*m的矩陣
- 統計每個人工標定類別j的平均概率tj作為置信度閾值
- 計算每個樣本真實類別,最大概率pij且pij大於tj
- 計算計數矩陣(類似混淆矩陣)
- 標定計數矩陣,讓計數矩陣的總和與數據總量相同
- 估計噪聲標簽和真實標簽的聯合分布,也就是將計數矩陣歸一化得到Q
Clean有4種方法:
- 過濾最大pij和人工標記不一致的數據;
- 過濾計數矩陣中非對角單元的樣本;
- 對於類別c,選取n*p個樣本過濾,其中p是聯合分布矩陣中除Q(c,c)之外的概率和;
- 對於計數矩陣非對角單元,選取n*p個樣本過濾,p是聯合分布矩陣中計數矩陣的單元對應的概率;
Re-Training
- 根據Q修正loss權重
- 采取Co-Teaching框架
本方法和置信學習中的SOTA方法Mentornet相比,噪聲數據占比40%時,多組實驗平均提升34%。