數據預處理
為什么要進行數據預處理?
數據質量
數據質量包括准確性、完整性、一致性、時效性、可信性和可解釋性
數據質量的三個要素:准確性、完整性、一致性。
不正確、不完整和不一致的數據是現實世界的大型數據庫和數據倉庫的共同特點
數據預處理的主要任務
- 數據清理
- 數據集成
- 數據規約
- 數據變換
數據清理
現實世界的數據一般是不完整的、有噪聲的和不一致的。數據清理例程試圖填充缺失的、光滑噪聲並識別離群點、糾正數據中的不一致性。
缺失值
- 忽略元組
- 人工填寫缺失值
- 使用一個全局常量填充缺失值
- 使用屬性的中心度量(如均值或者中位數)填充缺失值
- 使用與給定元組屬同一類的所有樣本的屬性均值或中位數
- 使用最有可能的值填充缺失值:可以利用回歸、貝葉斯、決策樹等方法預測缺失值
噪聲數據
噪聲是被測量的變量的隨機誤差或者方差。
-
分箱去噪
-
回歸去噪:用一個函數擬合數據來光滑數據,線性回歸涉及找出擬合兩個屬性的“最佳”直線,使得一個屬性可以用來預測另一個。
-
離群點分析:通過聚類檢測離群點
數據清理作為一個過程
- 第一步偏差檢測
- 每個屬性的數據類型和定義域是什么
- 每個屬性可接受的值是多少
- 找出均值、中位數、眾數
- 數據是堆成還是傾斜的
- 值域是什么
- 所有的值是否都落在期望的區間內
- 每個屬性的標准差
- 屬性之間是否存在依賴
- 第二步數據變換
- 兩步過程迭代執行
數據集成
數據分析任務多半涉及數據集成。數據集成將多個數據源中的數據合並,存放在一個一致的數據存儲中,如數據倉庫。這些數據源可能包括數據庫、數據立方體或一般文件。
冗余和相關分析
- 標稱數據的X2\mathcal{X}^2X2的相關檢驗
實例(括號中的數是期望頻率eije_{ij}eij):
其中(男,小說)的期望頻率是:
以此類推:
對於上表自由度是(2−1)(2−1)=1(2-1)(2-1) =1(2−1)(2−1)=1,對於自由度為1,在0.001的置信水平下,拒絕假設的值是10.828,由於我們計算的值大於該值,因此可以拒絕“性別”和“閱讀類型”獨立的假設,對於給定的人群,這兩個屬性是強相關的。 - 數值數據的相關系數(Pearson積矩系數)
如果rA,Br_{A,B}rA,B大於0,則A和B是正相關的,該值越大,相關性越強。
- 數值數據的協方差
元素重復
除了檢測屬性之間的冗余外,還應當在元組級檢測重復。
數據值沖突的檢測與處理
如一所大學開設俺們數據庫系統課程,用A−FA - FA−F評分,另一所大學可能采用學期制,開設兩門數據庫課程,用1−101-101−10評分,很難在這兩所大學之間制定精確的課程成績變換規則,這使得信息交換非常困難。
數據規約
數據規約技術可以用來得到數據集的規約表示(即數據集的簡化表示,但能產生同樣的分析結果)
數據規約概述
- 維歸約:減少所考慮的隨機變量或屬性的個數,方法包括
小波變換
和主成分分析(PCA)
,屬性子集選擇
是一種維歸約方法,其中不相關、弱相關、或者冗余的屬性或者維被檢測和刪除。 - 數量歸約:用替代的、較小的數據表示形式替換原數據。這些技術可以是參數或者非參數的。對於參數方法,使用模型估計數據,使得一般只需要存放模型參數,而不是實際數據,如
回歸和對數線性模型
。非參數方法:直方圖
、聚類
、抽樣
、數據立方體聚集
- 數據壓縮:使用變換,以便得到原數據的規約或者“壓縮表示”。有
無損壓縮和有損壓縮
小波變換(DWT)
DWT和離散傅里葉變換(DFT)
有密切關系。
主成分分析
屬性子集選擇
回歸和對數線性模型:參數化數據規約
使用模型估計數據,使得一般只需要存放模型參數,而不是實際數據。回歸和對數線性模型可以用來近似給定的數據。
直方圖
直方圖使用分箱來近似數據分布,是一種流行的數據規約形式,將某個屬性的數據分布划分為不相交的子集或桶。
桶的划分規則:
- 等寬
- 等頻
例子:
聚類
聚類技術把數據元組看作對象,將對象划分為簇,使得在一個簇中的對象相互相似,而與其他簇中的對象相異。
抽樣
- 無放回簡單隨機抽樣
- 有放回簡單隨機抽樣
- 簇抽樣
- 分層抽樣
數據立方體聚集
數據變換與數據離散化
數據變換將數據變換成適合挖掘的形式,數據離散化通過把值映射到區間或概念標號變換數值數據,這種方法可以用來自動產生數據的概念分層,而概念分層允許在多個粒度層進行挖掘。
數據變換策略概述
- 光滑:去掉數據中的噪聲,包括分箱、回歸和聚類。
- 屬性構造(特征構造):由給定的屬性構造新的屬性添加到屬性集中。
- 聚集:對數據進行匯總或者聚集。
- 規范化:把屬性數據按比例縮放,使落如一個特定的小區間,如[0.0, 1.0]。
- 離散化: 數值屬性(例如年齡)的原始值用區間標簽(0~10, 11~20)或者概念標簽(如youth、adult、senior)替換。
- 由標稱數據產生概念分層
通過規范化變換數據
- 最小-最大規范化
- z分數規范化
- 小數定標規范化
通過分箱離散化
通過直方圖分析離散化
通過聚類、決策樹和相關分析離散化
標稱數據的概念分層產生
- 根據每個屬性的不同值的個數產生概念分層