數據預處理之數據規約(Data Reduction)


數據歸約策略

  • 數據倉庫中往往具有海量的數據,在其上進行數據分析與挖掘需要很長的時間
  • 數據歸約 
    用於從源數據中得到數據集的歸約表示,它小的很多,但可以產生相同的(幾乎相同的)效果
  • 數據歸約策略 
    維歸約 
    數據壓縮 
    數值歸約 
    離散化和概念分層產生
  • 用於數據歸約的時間不應超過或“抵消”在歸約后的數據上挖掘節省的時間

維歸約

通過刪除不相干的額屬性和維數減少數據量

  • 屬性子集選擇 
    1找出最小的屬性集,使得數據類的概率分布盡可能接近所有屬性的原分布 
    2 減少出現在出現模式上的屬性的數目,使得模式更容易於理解
  • 啟發式的(探索性的)方法 
    逐步向前選擇 
    逐步向后刪除 
    向前選擇和向后刪除相結合 
    判定歸納樹(分類算法) 
    基於統計分析的歸約:主成分分析,回歸分析

數據壓縮

  • 有損壓縮 vs 無損壓縮
  • 字符串壓縮 
    有廣泛的理論基礎和精妙的算法 
    通常是無損壓縮 
    在解壓縮前對字符串的操作非常有限
  • 音頻/視頻 壓縮 
    通常是有損壓縮,壓縮精度可以遞進選擇 
    有時候可以在不解壓整體數據的情況下,重構某個片段
  • 兩種有損數據壓縮的方法: 小波變換和主要成分分析

數值歸約

  • 通過選擇替代的、較小的數據表示形式來減少數據量
  • 有參方法:使用一個參數模型估計數據,最后只要存儲參數即可。 
    線性回歸方法 
    多元回歸 
    對數線性模型:近似離散的多維數據概率分布
  • 無參方法 
    直方圖 
    聚類 
    選樣




 


主成分相關的程序-python 

import pandas as pd 
from sklearn.decomposition import PCA 
inputfile = '../data/principal_component.xls' 
outputfile = '../tmp/dimention_reducted.xls' #降維后的數據 
data = pd.read_excel(inputfile, header = None) #讀入數據 
pca = PCA() 
pca.fit(data) 
print pca.components_ #返回模型的各個特征向量 
print pca.explained_variance_ratio_ #返回各個成分各自的方差百分比 
pca = PCA(3) 
pca.fit(data) 
low_d = pca.transform(data) #降低唯獨 
pd.DataFrame(low_d).toexcel(outputfile) #保存結果 
pca.inverse_transform(low_d) #復原數據 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM