在數據預處理的過程當中往往需要將多個數據集合中的數據整合到一個數據倉庫中,即:需要對數據庫進行集成。與此同時,為了更好地對數據倉庫中的數據進行挖掘,對數據倉庫中的數據進行變換也在所難免。本文主要針對數據集成以及數據變化兩個問題展開論述。
數據集成在將多個數據庫整合為一個數據庫過程中存在需要着重解決三個問題:模式匹配、數據冗余以及數據值沖突。來自多個數據集合的數據由於在命名上存在差異導致等價的實體具有不同的名稱,這給數據集成帶來了挑戰。怎樣才能更好地對來源不同的多個實體進行匹配是擺在數據集成面前的第一個問題,涉及到實體識別問題,主要利用元數據來進行區分。
數據冗余可能來源於數據屬性命名的不一致,在解決數據冗余的過程中對於數值屬性可以利用皮爾遜積矩Ra,b來衡量,它是一個位於[-1,1]之間的數值,大於零那么屬性之間呈現正相關,否則為反相關。絕對值越大表明兩者之間相關性越強。對於離散數據可以利用卡方檢驗來檢測兩個屬性之間的關聯。
在數據集成中最后一個重要問題便是數據值沖突問題,主要表現為來源不同的統一實體具有不同的數據值。
數據變換將數據轉換或者統一為適合進行數據挖掘的形式,主要涉及一下幾點:
1.光滑:去掉數據中的噪聲,主要有分箱、回歸和聚類等方法;
2.聚集:通過對數據倉庫中的數據進行簡單的匯總和聚集來獲得統計信息,以便對數據進行更高層次的分析;
3.數據泛化:使用概念分層的方式,利用高層的概念來替換低層或原始數據;
4.規范化:對屬性數據進行縮放,使之可以落入到一個特定區域之間,主要有最小-最大規范化、Z-Score規范化(利用均值和標准差)以及小數定標(除以10的n次方,使之落到[-1,1])規范化等方法;
5.屬性構造:構造新的屬性並添加到屬性集合中以便幫助挖掘。