分類問題中，對於訓練數據中，如何找出真正有效的數據和讓模型自動標注的一些想法

本文轉載自查看原文 2017-09-14 10:15 1131 深度學習

最近，在學習機器學習的分類問題，數據是一個問題，我們用一些數據訓練，發現，訓練的數據對好的圖片識別率高，對不好的圖片識別率低，

雖然通常好的圖片比較多，但是就像svm一樣，支持邊界的就那幾個點，所以決定分類邊界的往往是分錯的點。但這並不絕對，因為好的數據

可以決定大的邊界，差的數據決定小的邊界，因此，這就產生了好幾種方案：

方案一：

1、用所有數據（如果數據量大，取局部手動標注）訓練一個初步模型，並用該模型對所有數據進行一輪分配（類）。

2、手工找出模型分類錯誤的點，手動調整后再訓練（根據數據大小采取局部和整體相結合）

3、最終用半自動分類的數據進行訓練整體模型

方案二：

1、用所有數據（如果數據量大，取局部手動標注）訓練一個初步模型，並用該模型對所有數據進行一輪分配（類）。

2、挑出分類錯誤的樣本，並手動分類，在第一輪中，分類正確的樣本我們稱為好的數據，分類錯誤的稱為邊界樣本。

現在，問題來了，如何協同這些樣本？可以去邊界樣本數據和好的數據1:1（or n:m）按一定比例構成新的數據集然后進入

第3步訓練。

3、最終用半自動分類的數據進行訓練整體模型

如果數據量大，可以重復1、2步驟。

為什么這樣做？因為通常是好的數據比邊界數據多得多，當10000張好的數據和1張邊界數據進行分類，准確率也達到99.99%，

但，我們為什么不用error 產生者，去訓練，這樣收斂的也快，也減少了不必要的epoch。

當然，上面還可以衍生各種組合。

有監督學習就像一把槍，指哪打哪，但是，你亂指（數據亂標），那他就亂打。

對於不好區分，或者人眼看過去比較邊界模棱兩可的圖像，比如將兩種花區分開來，但是

實際應用這圖片不是都是非常好的圖像，會存在曝光、偏光、夜晚等情況，如果有些圖片是

在夜晚拍攝，這時候兩種花大部分背景色調都是黑色，都不好區分，這時候訓練的邊界數據

就需要用learning rate小一些比較好。

（轉載需獲得作者同意哦）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習分類問題中_訓練數據類別不均衡怎么解決 pytorch訓練模型的一些坑對於nandflash壞塊的一些處理辦法(親測有效) 關於小程序，一些想法 Hystrix的一些應用和想法分類問題中的“維數災難” 分類問題中的過采樣和欠采樣 Lind.DDD.LindMQ的一些想法關於微信創新的一些想法基於Python使用Redis的一些想法和建議