數據挖掘筆記(三)—數據預處理


 

1.原始數據存在的幾個問題:不一致;重復;含噪聲;維度高。

 

2.數據預處理包含數據清洗、數據集成、數據變換和數據歸約幾種方法。

 

3.數據挖掘中使用的數據的原則

 

應該是從原始數據中選取合適的屬性作為數據挖掘屬性,這個選取過程應參考的原則是:盡可能賦予屬性名和屬性值明確的含義;統一多數據源的屬性值編碼;去除惟一屬性;去除重復性;去除可忽略字段;合理選擇關聯字段。

 

4.處理空缺值的方法:忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;預測最可能的值。

 

5.噪聲數據的處理方法:分箱;聚類;計算機和人工檢查結合;回歸

 

6.分箱:分箱方法是一種簡單常用的預處理方法,通過考察相鄰數據來確定最終值。所謂“分箱”,實際上就是按照屬性值划分的子區間,如果一個屬性值處於某個子區間范圍內,就稱把該屬性值放進這個子區間所代表的“箱子”內。把待處理的數據(某列屬性值)按照一定的規則放進一些箱子中,考察每一個箱子中的數據,采用某種方法分別對各個箱子中的數據進行處理。在采用分箱技術時,需要確定的兩個主要問題就是:如何分箱以及如何對每個箱子中的數據進行平滑處理。

 

分箱的方法:有4種:等深分箱法、等寬分箱法、最小熵法和用戶自定義區間法。

 

統一權重,也成等深分箱法,將數據集按記錄行數分箱,每箱具有相同的記錄數,每箱記錄數稱為箱子的深度。這是最簡單的一種分箱方法。

 

統一區間,也稱等寬分箱法,使數據集在整個屬性值的區間上平均分布,即每個箱的區間范圍是一個常量,稱為箱子寬度。

 

用戶自定義區間,用戶可以根據需要自定義區間,當用戶明確希望觀察某些區間范圍內的數據分布時,使用這種方法可以方便地幫助用戶達到目的。

 

例:客戶收入屬性income排序后的值(人民幣元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的結果如下。

 

統一權重:設定權重(箱子深度)為4,分箱后

 

箱1:800 1000 1200 1500

 

箱2:1500 1800 2000 2300 

 

箱3:2500 2800 3000 3500

 

箱4:4000 4500 4800 5000   

 

統一區間:設定區間范圍(箱子寬度)為1000元人民幣,分箱后

 

箱1:800 1000 1200 1500 1500 1800

 

箱2:2000 2300 2500 2800 3000

 

箱3:3500 4000 4500

 

箱4:4800 5000 

 

用戶自定義:如將客戶收入划分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱后

 

箱1:800 

 

箱2:1000 1200 1500 1500 1800 2000 

 

箱3:2300 2500 2800 3000  

 

箱4:3500 4000 

 

箱5:4500 4800 5000 

 

 

 

7.數據平滑方法:按平均值平滑、按邊界值平滑和按中值平滑。

 

⑴按平均值平滑 

 

對同一箱值中的數據求平均值,用平均值替代該箱子中的所有數據。 

 

⑵按邊界值平滑 

 

用距離較小的邊界值替代箱中每一數據。 

 

⑶按中值平滑 

 

取箱子的中值,用來替代箱子中的所有數據。 

 

8.聚類:將物理的或抽象對象的集合分組為由類似的對象組成的多個類。

 

找出並清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。

 

9.回歸;試圖發現兩個相關的變量之間的變化模式,通過使數據適合一個函數來平滑數據,即通過建立數學模型來預測下一個數值,包括線性回歸和非線性回歸。   

 

10.數據集成:將多文件或者多數據庫中的異構數據進行合並,然后存放在一個一致的數據存儲中。考慮以下幾個問題: 1.模式匹配2.數據冗余3.數據值沖突 

 

11. 數據變換:1.平滑2.聚集3.數據概化4.規范化(1)最小-最大規范化(2)零-均值規范化(3)小數定標規范化5.屬性構造

 

12.數據集成:將多文件或者多數據庫中的異構數據進行合並,然后存放在一個一致的數據存儲中。考慮以下幾個問題: 1.模式匹配2.數據冗余3.數據值沖突 

 

13.數據歸約:目的是為了獲得比原始數據小的多的,但不破壞數據完整性的挖掘數據集,該數據集可以得到與原始數據相同的挖掘結果。 

 

數據歸約的方法: 1.數據立方體聚集:把聚集的方法用於數據立方體。2.維歸約:檢測並刪除不相關、弱相關或冗余屬性。3.數據壓縮:選擇正確的編碼壓縮數據集。4.數值壓縮:用較小的數據表示數據,或采用較短的數據單位,或者用數據模型代表數據。5.離散化和概念分層生成:使連續的數據離散化,用確定的有限個區段值代替原始值;概念分層是指用較高層次的概念替換低層次的概念,以此來減少取值個數。

 

14.數據立方體聚集 :是數據的多維建模和表示,由維和事實組成。 

 

維歸約:去掉不相關的屬性,減少數據挖掘處理的數據量。 

 

屬性子集選擇的基本方法包括以下幾種: 1.逐步向前選擇2.逐步向后刪除3.向前選擇和向后刪除結合4.判定樹歸納5.基於統計分析的歸約   

 

數據壓縮:方法分為兩類:無損壓縮和有損壓縮

 

數值歸約常用的方法: 1.直方圖2.聚類3.抽樣:不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣和分層抽樣4.線性回歸5.非線性回歸     

 

15.數據變換涉及以下幾個方面:1.平滑2.聚集3.數據概化4.規范化(1)最小-最大規范化(2)零-均值規范化(3)小數定標規范化5.屬性構造

 

*規范化:(1)最小—最大規范化。原取值區間 [old_min,old_max],規范化后的新的取值區間[new_min,new_max]。

 

x’=  其中:x是屬性的真實值,x’是規范化后的值。

 

例如:“客戶背景數據”表中的客戶月收入income屬性的實際值范圍為[12000,98000],要把這個屬性值規范到[0,1],對屬性值73600應用上述公式:

 

x’=(1.0-0)+0=0.716

 

根據精度要求保留小數(假設精度要求0.01),最終取值0.72就是屬性值73600規范化后的值。

 

 (2)零—均值規范化(z—score規范化),是根據屬性值的平均值和標准差進行規范化,即:

 

x’=   =  =    為所有樣本屬性值的平均值,為樣本的標准差。當屬性值范圍未知的時候,可以使用此方法進行規范化。

 

    例:假設某屬性的平均值和標准差分別為80、25,采用零-均值規范化66為:x’==-0.56

 

(3)小數定標規范化:通過移動屬性A的小數點位置進行規范化 。

 

x’= 為滿足式<1的最小整數。

 

例:假設某屬性規范化前的取值范圍為[-120,110],采用小數定標規范化66。由於該屬性的最大絕對值為120,則由<1可得出=3,因此,66規范化后為:x’==0.066

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM