大數據預處理方法,來看看你知道幾個


大數據蘊含巨大價值,引起了社會各界的高度關注。大數據的來源多種多樣,從現實世界中采集的數據大體上都是不完整、不一致的臟數據,無法直接進行數據挖掘和分析,或分析挖掘的結果差強人意。為了提高數據分析挖掘的質量,需要對數據進行預處理。

數據預處理方法主要包括數據清洗、數據集成、數據轉換和數據消減。

1 .數據清洗

現實世界的數據常常是不完全的、含噪聲的、不一致的。數據清洗過程包括缺失數據處理、噪聲數據處理,以及不一致數據處理。

對於缺失的數據,可以采用忽略該條記錄、手動補充缺失值、利用默認值填補缺失值、利用均值填補缺失值、利用最可能的值填補缺失值等方法處理。

對於噪聲數據,可采用Bin方法、聚類分析方法、人機結合檢測方法、回歸方法來處理。

對於不一致的數據,可以利用它們與外部的關聯,手動解決這類問題。

2 .數據集成

大數據處理常常涉及數據集成操作,即將來自多個數據源的數據,如數據庫、數據立方、普通文件等,結合在一起並形成一個統一的數據集合,以便為數據處理工作的順利完成提供完整的數據基礎。

在數據集成過程中,需要考慮解決以下幾個問題。

(1)模式集成問題。

模式集成問題指如何使來自多個數據源的現實世界的實體相互匹配,這其中涉及實體識別問題。

例如,如何確定一個數據庫中的“custom_id”與另一個數據庫中的“custome_number”是否表示同一實體。

(2)冗余問題。

冗余問題是數據集成中經常發生的另一個問題。若一個屬性可以從其他屬性中推演出來,則這個屬性就是冗余屬性。

例如,一個顧客數據表中的平均月收入屬性就是冗余屬性,顯然它可以根據月收入屬性計算出來。此外,屬性命名的不一致也會導致集成后的數據集出現數據冗余問題。

(3)數據值沖突檢測與消除問題。

數據值沖突檢測與消除是數據集成中的另一個問題。在現實世界實體中,來自不同數據源的屬性值或許不同。產生這種問題的原因可能是表示、比例尺度,或編碼的差異等。

例如,重量屬性在一個系統中采用公制,而在另一個系統中卻采用英制;價格屬性在不同地點采用不同的貨幣單位。這些語義的差異為數據集成帶來許多問題。

3 .數據轉換

數據轉換就是將數據進行轉換或歸並,從而構成一個適合數據處理的描述形式。常用的轉換策略如下。

(1)規格化處理。

規格化處理就是將一個屬性取值范圍投射到一個特定范圍之內,以消除數值型屬性因大小不一而造成挖掘結果的偏差,常常用於神經網絡、基於距離計算的最近鄰分類和聚類挖掘的數據預處理。對於神經網絡,采用規格化后的數據不僅有助於確保學習結果的正確性,而且也會幫助提高學習的效率。對於基於距離計算的挖掘,規格化方法可以幫助消除因屬性取值范圍不同而影響挖掘結果的公正性。

(2)屬性構造處理。

屬性構造處理就是根據已有屬性集構造新的屬性,以幫助數據處理過程。屬性構造方法可以利用已有屬性集構造出新的屬性,並將其加入現有屬性集合中以挖掘更深層次的模式知識,提高挖掘結果准確性。

(3)數據離散化處理。

數據離散化處理是將數值屬性的原始值用區間標簽或概念標簽替換的過程,它可以將連續屬性值離散化。連續屬性離散化的實質是將連續屬性值轉換成少數有限的區間,從而有效地提高數據挖掘工作的計算效率。

(4)數據泛化處理。

數據泛化處理就是用更抽象(更高層次)的概念來取代低層次或數據層的數據對象,它廣泛應用於標稱數據的轉換。例如,街道屬性可以泛化到更高層次的概念,如城市、國家;數值型屬性(如年齡屬性),可以映射到更高層次的概念,如青年、中年和老年。

4. 數據消減

對大規模數據進行復雜的數據分析通常需要耗費大量的時間,這時就需要使用數據消減技術了。數據消減技術的主要目的是從原有巨大數據集中獲得一個精簡的數據集,並使這一精簡數據集保持原有數據集的完整性。這樣在精簡數據集上進行數據挖掘就會提高效率,並且能夠保證挖掘出來的結果與使用原有數據集所獲得的結果基本相同。

數據消減的主要策略有以下幾種[6]。

(1)數據聚合(Data Aggregation),如構造數據立方(數據倉庫操作)。

(2)維數消減(Dimension Reduction),主要用於檢測和消除無關、弱相關或冗余的屬性或維(數據倉庫中屬性),如通過相關分析消除多余屬性。

(3)數據壓縮(Data Compression),       利用編碼技術壓縮數據集的大小。

(4)數據塊消減(Numerosity Reduction),利用更簡單的數據表達形式,如參數模型、非參數模型(聚類、采樣、直方圖等),來取代原有的數據。此外,利用基於概念樹的泛化(Generalization)也可以實現對數據規模的消減。

 

以上內容摘自《大數據采集與處理》一書。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM