樣本失衡會對SVM的影響


假設正類樣本遠多於負類

1、線性可分的情況

假設真實數據集如下:

 由於負類樣本量太少,可能會出現下面這種情況

使得分隔超平面偏向負類。嚴格意義上,這種樣本不平衡不是因為樣本數量的問題,而是因為邊界點發生了變化

2、線性不可分的情況

源數據以及理想的超平面情況如下:

很可能由於負類樣本太少出現以下這種情況,超平面偏向負類

 


 

解決不平衡的方案:

【SVM對不平衡本身並不十分敏感】

【SVM的超平面只與支持向量有關,因此原離決策超平面的數據的多少並不重要】

1、過抽樣(隨機過抽樣)

2、欠抽樣(對多數類邊界樣本進行采樣)(既能代表多數類樣本分布特征, 又能對分類界面有一定影響的樣本特性欠取樣方法)

3、改進算法本身(代價敏感)

 


      參考博客   

     1)、對正例和負例賦予不同的C值,例如正例遠少於負例,則正例的C值取得較大,這種方法的缺點是可能會偏離原始數據的概率分布;

            2)、對訓練集的數據進行預處理即對數量少的樣本以某種策略進行采樣,增加其數量或者減少數量多的樣本,典型的方法如:隨機插入法,缺點是可能出現  

                 overfitting,較好的是:Synthetic Minority Over-sampling TEchnique(SMOTE),其缺點是只能應用在具體的特征空間中,不適合處理那些無法用

                 特征向量表示的問題,當然增加樣本也意味着訓練時間可能增加;

            3)、基於核函數的不平衡數據處理。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM