數據清洗與規約方法

本文轉載自查看原文 2018-10-13 11:00 2775 數據

一、臟數據處理

為什么要預處理數據？

如何預防臟數據？

1. 處理數據缺失：

2. 處理數據重復：

3. 處理數據錯誤：不一致

二、噪聲數據處理

1. 分箱：

把待處理的數據按照一定的規則放進一些箱子中，考察每一個箱子中的數據，采用某種方法分別對各個箱子中的數據進行處理。

需要確定的主要問題：分箱方法，即如何分箱；數據平滑方法，即如何對每個箱子中的數據進行平滑處理。

分箱方法：

平滑處理：

2. 回歸

發現兩個相關的變量間的變化模式，通過使數據適合一個函數來平滑數據，即利用擬合函數對數據進行平滑。

回歸方法：線性方法；非線性方法。

3. 聚類

將物理的或抽象對象集合分組為不同簇，找出並清除那些落在簇之外的值(鼓勵點)，這些鼓勵點被視為噪聲。

通過聚類分析發現異常數據：相似或向鄰近的數據聚合在一起形成了各個聚類集合，而那些位於這些聚類集合之外的數據對象，被認為是異常數據。

特點：直接形成簇並對簇進行描述，不需要任何先驗知識。

三、數據集成

模式匹配：整合不同數據源中的元數據。(A.user_id=B.customer_no)

數據冗余：一個屬性可以由另外一個表導出。(平均月收入-月收入)

數據值沖突：來自不同數據源的屬性值不同。(人民幣-英鎊)

聚集：對數據進行匯總。(avg, count, sum, min, max)

數據概化：用更抽象(更高層次)的概念來取代低層次或數據層的數據對象。(城市->國家)

規范化：將數據按照比例進行縮放，使之落入一個特定的區域，以消除數值型屬性因大小不一而造成挖掘結果的偏差。(最小-最大規范化，零-均值規范化，小數定標規范化)

屬性構造：利用已有屬性集構造出新的屬性，並加入到現有屬性集合中以幫助挖掘更深層次的模式知識，提高挖掘結果准確性。(寬、高->面積)

四、數據規約

對大規模數據庫內容進行復雜的數據分析通常需要耗費大量的時間。數據規約技術用於幫助從原有龐大數據集中獲得一個精簡的數據集合，並使用這一精簡數據集保持原有數據集的完整性，這樣在精簡數據集上進行數據挖掘效率更高，並且挖掘出來的結果與使用原有數據集所獲得的結果基本相同。

標准：

方法：

五、數據建模

概念模型：實體及關聯關系

邏輯模型：數據實體細節(主鍵，外鍵，索引)

物理模型：數據的存儲方式(數據拆分，數據表空間，數據集成)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據清洗的方法數據清洗有哪些方法？數據質量及數據清洗方法 pandas常用數據清洗方法常用數據清洗方法大盤點 Pandas 數據清洗常見方法【數據清洗】2013-數據質量及數據清洗方法數據清洗 python 數據清洗 Python基本的數據清洗