分類問題中,對於訓練數據中,如何找出真正有效的數據和讓模型自動標注的一些想法


   最近,在學習機器學習的分類問題,數據是一個問題,我們用一些數據訓練,發現,訓練的數據對好的圖片識別率高,對不好的圖片識別率低,

雖然通常好的圖片比較多,但是就像svm一樣,支持邊界的就那幾個點,所以決定分類邊界的往往是分錯的點。但這並不絕對,因為好的數據

可以決定大的邊界,差的數據決定小的邊界,因此,這就產生了好幾種方案:

方案一:

1、用所有數據(如果數據量大,取局部手動標注)訓練一個初步模型,並用該模型對所有數據進行一輪分配(類)。

2、手工找出模型分類錯誤的點,手動調整后再訓練(根據數據大小采取局部和整體相結合)

3、最終用半自動分類的數據進行訓練整體模型

 

方案二:

1、用所有數據(如果數據量大,取局部手動標注)訓練一個初步模型,並用該模型對所有數據進行一輪分配(類)。

2、挑出分類錯誤的樣本,並手動分類,在第一輪中,分類正確的樣本我們稱為好的數據,分類錯誤的稱為邊界樣本。

現在,問題來了,如何協同這些樣本?可以去邊界樣本數據和好的數據1:1(or n:m)按一定比例構成新的數據集然后進入

第3步訓練。

3、最終用半自動分類的數據進行訓練整體模型

 

 

如果數據量大,可以重復1、2步驟。

 

為什么這樣做?因為通常是好的數據比邊界數據多得多,當10000張好的數據和1張邊界數據進行分類,准確率也達到99.99%,

但,我們為什么不用error 產生者,去訓練,這樣收斂的也快,也減少了不必要的epoch。

當然,上面還可以衍生各種組合。

 

有監督學習就像一把槍,指哪打哪,但是,你亂指(數據亂標),那他就亂打。

 

對於不好區分,或者人眼看過去比較邊界模棱兩可的圖像,比如將兩種花區分開來,但是

實際應用這圖片不是都是非常好的圖像,會存在曝光、偏光、夜晚等情況,如果有些圖片是

在夜晚拍攝,這時候兩種花大部分背景色調都是黑色,都不好區分,這時候訓練的邊界數據

就需要用learning rate小一些比較好。

 

 

 

 

 

(轉載需獲得作者同意哦)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM