數據預處理技術
數據清理:空缺值處理、格式標准化、異常數據清除、錯誤糾正、重復數據的清除
數據集成:將多個數據源中的數據結合起來並統一存儲,建立數據倉庫的過程實際上就是數據集成。
數據變換:平滑、聚集、規范化、最小 最大規范化等
數據歸約:維歸(刪除不相關的屬性(維))、數據壓縮(PCA,LDA,SVD、小波變換)、數值歸約(回歸和對數線形模型、線形回歸、對數線形模型、直方圖)
數據離散化和概念分層
1、數據清理:格式標准化、異常數據清除、錯誤糾正、重復數據的清除
通過填寫空缺值,平滑噪聲數據,識別刪除孤立點,並解決不一致來清理數據,主要是達到如下目標:
(1)數據集壓縮處理,主要策略:
數據聚集、維規約、數據壓縮、數據規約
(2)空缺值處理,主要策略:
1)忽略元組、人工填寫空缺值、使用固定值
2)平均值(中位數等)、各種插值處理(牛頓插值、Lagrange插值等)
3)使用一些分類方法如KNN等。
(3)噪聲數據處理,主要策略:
數據平滑技術:
1)分箱處理
箱的深度:表示不同的箱里有相同個數的數據。
箱的寬度:每個箱值的取值區間是個常數。
2)平滑方法:
按箱平均值平滑、
按箱中值平滑、
按箱邊界值平滑
3)聚類技術:
每個簇中的數據用其中心值代替、
識別檢測並忽略孤立點
4)回歸技術:
通過構造函數來符合數據變化的趨勢,這樣可以用一個變量預測另一個變量。
線形回歸、
多線形回歸
2、數據集成:將多個數據源中的數據結合起來並統一存儲,建立數據倉庫的過程實際上就是數據集成。
3、數據變換:
平滑、聚集、數據概化、規范化、最小 最大規范化、小數定標規范化、屬性構造:由給定的屬性構造和添加新的屬性,以幫助提高精度和對高維數據結構的理解
4、數據歸約:
(1)、維歸約
刪除不相關的屬性(維)來減少數據量。
找出最小屬性集合,使得數據類的概率分布盡可能地接近使用所有屬性的原分布,一般可以通過貪心算法,逐步向前選擇,逐步后向刪除,向前選擇和后向刪除相結合,判定樹歸納
(2)、數據壓縮
主成分分析PCA,LDA,SVD
小波變換:將數據向量D轉換成為數值上不同的小波系數的向量D’,對D’進行剪裁,保留小波系數最強的部分
(3)、數值歸約
回歸和對數線形模型、線形回歸、對數線形模型、直方圖、等寬、等深、V-最優、maxDiff、聚類、多維索引樹 : 對於給定的數據集合,索引樹動態的划分多維空間。
5、離散化和概念分層
離散化技術用來減少給定連續屬性的個數,這個過程通常是遞歸的,而且大量時間花在排序上。
對於給定的數值屬性,概念分層定義了該屬性的一個離散化的值。
數值數據離散化和概念分層生成方法有:分箱、直方圖分析