1.原始數據存在的幾個問題:不一致;重復;含噪聲;維度高。
2.數據預處理包含數據清洗、數據集成、數據變換和數據歸約幾種方法。
3.數據挖掘中使用的數據的原則
應該是從原始數據中選取合適的屬性作為數據挖掘屬性,這個選取過程應參考的原則是:盡可能賦予屬性名和屬性值明確的含義;統一多數據源的屬性值編碼;去除惟一屬性;去除重復性;去除可忽略字段;合理選擇關聯字段。
4.處理空缺值的方法:忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;預測最可能的值。
5.噪聲數據的處理方法:分箱;聚類;計算機和人工檢查結合;回歸
6.分箱:分箱方法是一種簡單常用的預處理方法,通過考察相鄰數據來確定最終值。所謂“分箱”,實際上就是按照屬性值划分的子區間,如果一個屬性值處於某個子區間范圍內,就稱把該屬性值放進這個子區間所代表的“箱子”內。把待處理的數據(某列屬性值)按照一定的規則放進一些箱子中,考察每一個箱子中的數據,采用某種方法分別對各個箱子中的數據進行處理。在采用分箱技術時,需要確定的兩個主要問題就是:如何分箱以及如何對每個箱子中的數據進行平滑處理。
分箱的方法:有4種:等深分箱法、等寬分箱法、最小熵法和用戶自定義區間法。
統一權重,也成等深分箱法,將數據集按記錄行數分箱,每箱具有相同的記錄數,每箱記錄數稱為箱子的深度。這是最簡單的一種分箱方法。
統一區間,也稱等寬分箱法,使數據集在整個屬性值的區間上平均分布,即每個箱的區間范圍是一個常量,稱為箱子寬度。
用戶自定義區間,用戶可以根據需要自定義區間,當用戶明確希望觀察某些區間范圍內的數據分布時,使用這種方法可以方便地幫助用戶達到目的。
例:客戶收入屬性income排序后的值(人民幣元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的結果如下。
統一權重:設定權重(箱子深度)為4,分箱后
箱1:800 1000 1200 1500
箱2:1500 1800 2000 2300
箱3:2500 2800 3000 3500
箱4:4000 4500 4800 5000
統一區間:設定區間范圍(箱子寬度)為1000元人民幣,分箱后
箱1:800 1000 1200 1500 1500 1800
箱2:2000 2300 2500 2800 3000
箱3:3500 4000 4500
箱4:4800 5000
用戶自定義:如將客戶收入划分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱后
箱1:800
箱2:1000 1200 1500 1500 1800 2000
箱3:2300 2500 2800 3000
箱4:3500 4000
箱5:4500 4800 5000
7.數據平滑方法:按平均值平滑、按邊界值平滑和按中值平滑。
⑴按平均值平滑
對同一箱值中的數據求平均值,用平均值替代該箱子中的所有數據。
⑵按邊界值平滑
用距離較小的邊界值替代箱中每一數據。
⑶按中值平滑
取箱子的中值,用來替代箱子中的所有數據。
8.聚類:將物理的或抽象對象的集合分組為由類似的對象組成的多個類。
找出並清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。
9.回歸;試圖發現兩個相關的變量之間的變化模式,通過使數據適合一個函數來平滑數據,即通過建立數學模型來預測下一個數值,包括線性回歸和非線性回歸。
10.數據集成:將多文件或者多數據庫中的異構數據進行合並,然后存放在一個一致的數據存儲中。考慮以下幾個問題: 1.模式匹配2.數據冗余3.數據值沖突
11. 數據變換:1.平滑2.聚集3.數據概化4.規范化(1)最小-最大規范化(2)零-均值規范化(3)小數定標規范化5.屬性構造
12.數據集成:將多文件或者多數據庫中的異構數據進行合並,然后存放在一個一致的數據存儲中。考慮以下幾個問題: 1.模式匹配2.數據冗余3.數據值沖突
13.數據歸約:目的是為了獲得比原始數據小的多的,但不破壞數據完整性的挖掘數據集,該數據集可以得到與原始數據相同的挖掘結果。
數據歸約的方法: 1.數據立方體聚集:把聚集的方法用於數據立方體。2.維歸約:檢測並刪除不相關、弱相關或冗余屬性。3.數據壓縮:選擇正確的編碼壓縮數據集。4.數值壓縮:用較小的數據表示數據,或采用較短的數據單位,或者用數據模型代表數據。5.離散化和概念分層生成:使連續的數據離散化,用確定的有限個區段值代替原始值;概念分層是指用較高層次的概念替換低層次的概念,以此來減少取值個數。
14.數據立方體聚集 :是數據的多維建模和表示,由維和事實組成。
維歸約:去掉不相關的屬性,減少數據挖掘處理的數據量。
屬性子集選擇的基本方法包括以下幾種: 1.逐步向前選擇2.逐步向后刪除3.向前選擇和向后刪除結合4.判定樹歸納5.基於統計分析的歸約
數據壓縮:方法分為兩類:無損壓縮和有損壓縮
數值歸約常用的方法: 1.直方圖2.聚類3.抽樣:不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣和分層抽樣4.線性回歸5.非線性回歸
15.數據變換涉及以下幾個方面:1.平滑2.聚集3.數據概化4.規范化(1)最小-最大規范化(2)零-均值規范化(3)小數定標規范化5.屬性構造
*規范化:(1)最小—最大規范化。原取值區間 [old_min,old_max],規范化后的新的取值區間[new_min,new_max]。
x’= 其中:x是屬性的真實值,x’是規范化后的值。
例如:“客戶背景數據”表中的客戶月收入income屬性的實際值范圍為[12000,98000],要把這個屬性值規范到[0,1],對屬性值73600應用上述公式:
x’=(1.0-0)+0=0.716
根據精度要求保留小數(假設精度要求0.01),最終取值0.72就是屬性值73600規范化后的值。
(2)零—均值規范化(z—score規范化),是根據屬性值的平均值和標准差進行規范化,即:
x’= = = 為所有樣本屬性值的平均值,為樣本的標准差。當屬性值范圍未知的時候,可以使用此方法進行規范化。
例:假設某屬性的平均值和標准差分別為80、25,采用零-均值規范化66為:x’==-0.56
(3)小數定標規范化:通過移動屬性A的小數點位置進行規范化 。
x’= 為滿足式<1的最小整數。
例:假設某屬性規范化前的取值范圍為[-120,110],采用小數定標規范化66。由於該屬性的最大絕對值為120,則由<1可得出=3,因此,66規范化后為:x’==0.066