最近,在學習機器學習的分類問題,數據是一個問題,我們用一些數據訓練,發現,訓練的數據對好的圖片識別率高,對不好的圖片識別率低,
雖然通常好的圖片比較多,但是就像svm一樣,支持邊界的就那幾個點,所以決定分類邊界的往往是分錯的點。但這並不絕對,因為好的數據
可以決定大的邊界,差的數據決定小的邊界,因此,這就產生了好幾種方案:
方案一:
1、用所有數據(如果數據量大,取局部手動標注)訓練一個初步模型,並用該模型對所有數據進行一輪分配(類)。
2、手工找出模型分類錯誤的點,手動調整后再訓練(根據數據大小采取局部和整體相結合)
3、最終用半自動分類的數據進行訓練整體模型
方案二:
1、用所有數據(如果數據量大,取局部手動標注)訓練一個初步模型,並用該模型對所有數據進行一輪分配(類)。
2、挑出分類錯誤的樣本,並手動分類,在第一輪中,分類正確的樣本我們稱為好的數據,分類錯誤的稱為邊界樣本。
現在,問題來了,如何協同這些樣本?可以去邊界樣本數據和好的數據1:1(or n:m)按一定比例構成新的數據集然后進入
第3步訓練。
3、最終用半自動分類的數據進行訓練整體模型
如果數據量大,可以重復1、2步驟。
為什么這樣做?因為通常是好的數據比邊界數據多得多,當10000張好的數據和1張邊界數據進行分類,准確率也達到99.99%,
但,我們為什么不用error 產生者,去訓練,這樣收斂的也快,也減少了不必要的epoch。
當然,上面還可以衍生各種組合。
有監督學習就像一把槍,指哪打哪,但是,你亂指(數據亂標),那他就亂打。
對於不好區分,或者人眼看過去比較邊界模棱兩可的圖像,比如將兩種花區分開來,但是
實際應用這圖片不是都是非常好的圖像,會存在曝光、偏光、夜晚等情況,如果有些圖片是
在夜晚拍攝,這時候兩種花大部分背景色調都是黑色,都不好區分,這時候訓練的邊界數據
就需要用learning rate小一些比較好。
(轉載需獲得作者同意哦)