數據挖掘筆記（三）—數據預處理

本文轉載自查看原文 2016-06-04 17:08 10731 數據挖掘

1.原始數據存在的幾個問題：不一致；重復；含噪聲；維度高。

2.數據預處理包含數據清洗、數據集成、數據變換和數據歸約幾種方法。

3.數據挖掘中使用的數據的原則

應該是從原始數據中選取合適的屬性作為數據挖掘屬性，這個選取過程應參考的原則是：盡可能賦予屬性名和屬性值明確的含義；統一多數據源的屬性值編碼；去除惟一屬性；去除重復性；去除可忽略字段；合理選擇關聯字段。

4.處理空缺值的方法：忽略該記錄；去掉屬性；手工填寫空缺值；使用默認值；使用屬性平均值；使用同類樣本平均值；預測最可能的值。

5.噪聲數據的處理方法：分箱；聚類；計算機和人工檢查結合；回歸

6.分箱：分箱方法是一種簡單常用的預處理方法，通過考察相鄰數據來確定最終值。所謂“分箱”，實際上就是按照屬性值划分的子區間，如果一個屬性值處於某個子區間范圍內，就稱把該屬性值放進這個子區間所代表的“箱子”內。把待處理的數據（某列屬性值）按照一定的規則放進一些箱子中，考察每一個箱子中的數據，采用某種方法分別對各個箱子中的數據進行處理。在采用分箱技術時，需要確定的兩個主要問題就是：如何分箱以及如何對每個箱子中的數據進行平滑處理。

分箱的方法：有4種：等深分箱法、等寬分箱法、最小熵法和用戶自定義區間法。

統一權重，也成等深分箱法，將數據集按記錄行數分箱，每箱具有相同的記錄數，每箱記錄數稱為箱子的深度。這是最簡單的一種分箱方法。

統一區間，也稱等寬分箱法，使數據集在整個屬性值的區間上平均分布，即每個箱的區間范圍是一個常量，稱為箱子寬度。

用戶自定義區間，用戶可以根據需要自定義區間，當用戶明確希望觀察某些區間范圍內的數據分布時，使用這種方法可以方便地幫助用戶達到目的。

例：客戶收入屬性income排序后的值（人民幣元）：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000，分箱的結果如下。

統一權重：設定權重（箱子深度）為4，分箱后

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

統一區間：設定區間范圍（箱子寬度）為1000元人民幣，分箱后

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

用戶自定義：如將客戶收入划分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組，分箱后

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

7.數據平滑方法：按平均值平滑、按邊界值平滑和按中值平滑。

⑴按平均值平滑

對同一箱值中的數據求平均值，用平均值替代該箱子中的所有數據。

⑵按邊界值平滑

用距離較小的邊界值替代箱中每一數據。

⑶按中值平滑

取箱子的中值，用來替代箱子中的所有數據。

8.聚類：將物理的或抽象對象的集合分組為由類似的對象組成的多個類。

找出並清除那些落在簇之外的值（孤立點），這些孤立點被視為噪聲。

9.回歸；試圖發現兩個相關的變量之間的變化模式，通過使數據適合一個函數來平滑數據，即通過建立數學模型來預測下一個數值，包括線性回歸和非線性回歸。

10.數據集成：將多文件或者多數據庫中的異構數據進行合並，然后存放在一個一致的數據存儲中。考慮以下幾個問題： 1.模式匹配2.數據冗余3.數據值沖突

11. 數據變換：1.平滑2.聚集3.數據概化4.規范化（1）最小-最大規范化（2）零-均值規范化（3）小數定標規范化5.屬性構造

12.數據集成：將多文件或者多數據庫中的異構數據進行合並，然后存放在一個一致的數據存儲中。考慮以下幾個問題： 1.模式匹配2.數據冗余3.數據值沖突

13.數據歸約：目的是為了獲得比原始數據小的多的，但不破壞數據完整性的挖掘數據集，該數據集可以得到與原始數據相同的挖掘結果。

數據歸約的方法： 1.數據立方體聚集：把聚集的方法用於數據立方體。2.維歸約：檢測並刪除不相關、弱相關或冗余屬性。3.數據壓縮：選擇正確的編碼壓縮數據集。4.數值壓縮：用較小的數據表示數據，或采用較短的數據單位，或者用數據模型代表數據。5.離散化和概念分層生成：使連續的數據離散化，用確定的有限個區段值代替原始值；概念分層是指用較高層次的概念替換低層次的概念，以此來減少取值個數。

14.數據立方體聚集：是數據的多維建模和表示，由維和事實組成。

維歸約：去掉不相關的屬性，減少數據挖掘處理的數據量。

屬性子集選擇的基本方法包括以下幾種： 1.逐步向前選擇2.逐步向后刪除3.向前選擇和向后刪除結合4.判定樹歸納5.基於統計分析的歸約

數據壓縮：方法分為兩類：無損壓縮和有損壓縮

數值歸約常用的方法: 1.直方圖2.聚類3.抽樣：不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣和分層抽樣4.線性回歸5.非線性回歸

15.數據變換涉及以下幾個方面：1.平滑2.聚集3.數據概化4.規范化（1）最小-最大規范化（2）零-均值規范化（3）小數定標規范化5.屬性構造

*規范化：(1)最小—最大規范化。原取值區間 [old_min，old_max]，規范化后的新的取值區間[new_min，new_max]。

x’= 其中：x是屬性的真實值，x’是規范化后的值。

例如：“客戶背景數據”表中的客戶月收入income屬性的實際值范圍為[12000，98000]，要把這個屬性值規范到[0，1]，對屬性值73600應用上述公式：

x’=(1.0-0)+0=0.716

根據精度要求保留小數（假設精度要求0.01），最終取值0.72就是屬性值73600規范化后的值。

(2)零—均值規范化（z—score規范化），是根據屬性值的平均值和標准差進行規范化，即：

x’= = = 為所有樣本屬性值的平均值，為樣本的標准差。當屬性值范圍未知的時候，可以使用此方法進行規范化。

例：假設某屬性的平均值和標准差分別為80、25，采用零－均值規范化66為：x’==-0.56

(3)小數定標規范化：通過移動屬性A的小數點位置進行規范化。

x’= 為滿足式<1的最小整數。

例：假設某屬性規范化前的取值范圍為[-120，110]，采用小數定標規范化66。由於該屬性的最大絕對值為120，則由<1可得出=3，因此，66規范化后為：x’==0.066

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘-數據預處理的必要性及主要任務數據挖掘面試數據挖掘-基本流程神奇的數據挖掘數據挖掘入門數據挖掘模型數據挖掘之關聯分析四（連續屬性處理）數據挖掘筆記<2017年3月1日-> 關於數據挖掘中的文本挖掘數據挖掘——關聯算法