數據預處理


數據預處理章節,整理於《數據挖掘·概念與技術》第三章,如有錯誤,請指正,謝謝~

1、概述

  數據清理可以去除數據中的噪聲,糾正不一致。數據集成將數據由多個數據源合並成一個一致的數據進行存儲,如數據倉庫。數據規約可以通過如聚集,刪除冗余特征或聚類降低數據的規模。數據變換(如規約化)可以把數據壓縮到較小的區間,如0.0到1.0。這可以提高設計距離度量數據挖掘算法的准確率和效率。

  數據質量涉及到許多因素,包括准確性、完整性、一致性、時效性、可信性和可解釋性。

  在分析中使用多個數據源的數據那就是數據集成,數據集是巨大的,要降低數據集的規模,而又不損害數據挖掘的結果--數據規約(data reduction); 維規約:用數據編碼方案,得到原始數據的簡化或“壓縮”表示。包括數據壓縮技術(例如小波變換和主成分分析),以及屬性子集選擇(例如去掉不相關的屬性)和屬性構造(例如從原來數據集導出更有用的小屬性集);數據規約:使用參數模型(例如回歸和對數線性模型)或非參數模型(例如直方圖、聚類、抽樣或數據聚集)用較小的表示取代數據

  離散化和概念分層產生 也可能是有用的。

  規范化、數據離散化和概念分層產生都是某種形式的數據變換(data transformation)

2、數據清理

  現實的數據一般是不完整的、有噪聲的和不一致的。數據清理試圖填充缺失值、光滑噪聲並識別離群點、糾正數據中的不一致

2.1缺失值:

  針對缺失值有很多種方法忽略改元組,人工填寫,用一個全局變量填充,使用屬性中心度量(均值或中位數)填充,使用與給定元組屬同一類的樣本屬性均值或中位數代替, 使用最可能的值填充缺失值。

  貌似方法"使用最可能的值填充缺失值"最靠譜:可以用回歸、使用貝葉斯形式化方法的基於推理的工具或決策樹歸納確定。

2.2噪聲數據:

  “噪聲”(noise)是被測量的變量的隨機誤差或方差

  數據光滑技術:分箱(binning)、回歸(regression)、離群點分析(outlier analysis)

  回歸:用一個函數擬合數據來光滑數據,線性回歸找出擬合兩個屬性的最佳直線。多元線性回歸是線性回歸的擴充,屬性多於2個,數據將擬合到一個多維曲面

  有些分類方法有內置的數據光滑機制(如神經網絡)

2.3數據清理作為一個過程

  第一步是偏差檢測(discrepancy detection),例如,找出均值,中位數,眾數。數據是對稱的還是傾斜的?值域是什么?所有的值是否都落於期望區間?每個屬性的標准差是多少?遠離給定屬性均值超過兩個標准差的值可能標記為可能的離群點。屬性之間是否存在已知的依賴關系?

  還可以根據唯一性規則、連續性規則和空值規則考查數據。

  

3、數據集成

 3.1實體識別問題:

  數據集成是將來自多個數據源的數據合並,並存放在一個一致的數據存儲中。考慮多個信息源的現實世界的等價實體如何相互“匹配”?如一個customer_id字段與另一個數據庫中的cust_number是否相同屬性。要考慮每個屬性的元數據,包括名字、含義、數據類型、和取值范圍,以及處理空白,空值和null的規則。 還可以進行變換數據,如性別有的用B和G代表,還有的用1和2代表

 3.2冗余和相關性分析

  冗余是常見的,比如一個屬性(年收入)可以由其他屬性導出(月收入),那么就是冗余的。

  冗余可以被相關分析檢測到。對於標稱數據可以用(卡方)檢驗;對於數值型數據可以用相關系數(correlation coefficient)和協方差(covariance)檢驗,這兩個都是評估一個屬性的值如何隨另一個屬性值變化。

  (1)標稱數據的卡方相關檢驗:

  有兩個屬性A和B,屬性A有c個不同值,a1,a2……ac;屬性B有r個不同值,b1,b2,……br;A和B兩個屬性描述的數據元組可以用一個相依表顯示,A屬性為列,B屬性為行,構成的每個元組(Ai,Bj);則卡方的表達式為:

  Oij是聯合事件(Ai,Bj)的實際觀測頻度,Eij則是(Ai,Bj)的期望頻度。其中n是數據元組的個數,count(A=ai)表示A上具有ai值的所有個數,同理。

  卡方統計檢驗假設A和B都是獨立的,檢驗基於顯著水平,具有自由度(r-1)X(c-1),如果可以拒絕改假設,則我們可以說A和B是統計相關的。

  例子1:性別與是否愛閱讀小說的卡方檢驗

  合計
小說 250(90) 200(360) 450
非小說 50(210) 1000(840) 1050
合計 300 1200 1500

 其中括號內的數是期望頻率,期望頻率是根據兩個屬性的數據分布用eij式子計算得來,如(男,小說)的期望頻率是e11 = count(男)Xcount(小說) / n =  300X450/1500 = 90

注意:任意行,期望頻率的和必須等於改行總觀測頻率,並且任意列的期望頻率和也必須等於該列的總觀測頻率。利用卡方計算公式有

=284.44+121.90+71.11+30.48 = 507.93 

對於2X2的表,自由度為(2-1)X(2-1)=1, 自由度為1,在0.001置信水平下,拒絕假設的值為10.828,我們計算值大於該值,因此我們拒絕兩個屬性獨立的假設。

  例2:醫院分別用化療和化療結合放射結合兩種方法,如圖

組別  有效  無效  合計  有效率(%) 
化療組  19  24  43  44.2 
化療加放療組  34  10  44  77.3 
合計  53  34  87  60.9 

分別計算期望頻度,總數n是87,第一行第一列:count(有效)Xcount(化療組)/n=53*43/87=26.2;第一行第二列:count(化療)Xcount(無效)/n=43*34/87=16.8;第二行第一列:count(化療加放療)Xcount(有效)/n=44*53/87=26.8;第二行第二列:44*34/87=17.2

 

組別  有效  無效  合計 
化療組  19(26.2)  24(16.8)  43 
化療加放療組  34(26.8)  10(17.2)  44 
合計  53  34  87 

則卡方的值為:(19-26.2)^2/26.2 + (34-26.8)^2/26.8 +(24-16.8)^2/16.8 + (10-17.2)^2/17.2 = 10.01

 

在查表之前應知本題自由度。按x2檢驗的自由度v=(行數-1)(列數-1),則該題的自由度v=(2-1)(2-1)=1,查x2界值表(附表20-1),找到x20.001(1)=6.63原地方是否差錯了?而本題x2=10.01即x2>x20.001(1),P<0.01,差異有高度統計學意義,按α=0.05水准,拒絕假設獨立,可以認為采用化療加放療治療卵巢癌的療效比單用化療佳。

 

  (2)數值數據的協方差與相關系數:

  在概率論與統計學中,協方差和方差是具有類似的度量,協方差是方差在多維隨機變量的擴展,即刻畫隨機變量在其中心位置附近散步程度的數字特征

  方差:Var(X)=E(X - EX)^2 ; 另EX=a,則 Var(X) = E(X^2) - 2aE(X) +a^2 = E(X^2) - (EX)^2

  考慮兩個數值屬性A,B和多次觀測的集合{(a1, b1), ……(an,bn)},協方差定義為:          

  協相關系數的定義:分子分別為A和B的標准差。 還可以證明Cov(A,B) = E(A·B) - E(A)·E(B)

  容易發現,對於兩個趨向於一起改變的屬性A和B,如果A大於期望A,則B很有可能大於期望B,那么此時協方差為正,且協相關系數>0,如果一個屬性小於期望值,另一個屬性趨向於大於期望值則,協方差為負,

  若A,B獨立(不具有相關性),那么協方差為0,反之不成立。

  協方差例子:

  交易數據與股票價格的簡化例子,如果股市收到相同的產業趨勢影響,他們的股價會一起漲跌嗎,E(electronics)=(6+5+4+3+2)/5 = 4美元,E(HighTech)=(20+10+14+5+5)/5=10.8美元

  則協方差為Cov() = E(A·B)- E(A)·E(B) = 7,則表明是正相關。

 

 

4、數據規約(待完善)

5、數據變換與數據離散化(待完善)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM