異常值處理


異常值是模型優化的關鍵點之一,離均值遠的是異常值,可是多遠才算足夠遠呢,其實不同的模型有着不同的考量,基於模型所受的影響不同,所以所能忍受的異常值也不同。

1、異常值的類型

從二維的角度來說,其實異常值有三種類型,一是影響垂直方向Y的異常值,叫垂直特異性,對應探測該類異常的指標為標准化殘差(學生化殘差也可以);二是同時影響x和Y的異常值,對應探測該類異常的指標為COOK值,三是影響水平方向的X的異常值,叫杠桿值,對應探測該類型異常的指標為杠桿率。

 

 

 2、不同模型關注異常值的類型及處理方法

從x,y變量的角度區分不同模型對異常值的處理。一是對於沒有Y的模型,只有一系列X,通過描述性分析,制作箱型圖來探測異常值,此種情況下對於單變量的異常值一般不刪除,僅僅是警惕即可。二是對於有Y的模型,對於y為線性的,如線性回歸模型,該模型主要關注垂直特異性(具體原因與估計產生的標准差有關),因而主要是將標准化殘差與+-2進行比較,超過的即為異常值;對於y為二分類變量,如logistic模型,三類異常值都要考慮,因而需要結合標准化殘差、COOK值、杠桿率三個指標一起考慮,由此引出了偏離殘差(界值為8)、皮爾森卡方(界值為100),此種情況異常值要刪除。三是沒有x、y之分的模型,x、y同等重要,通過聚類分析中的二維散點圖探測異常值,如果是在數據挖掘中,異常值有些可能不要刪除,而是重點檢查,因為異常值代表着消費者行為中的小眾行為,也許就是VIP行為。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM