數據歸約策略
- 數據倉庫中往往具有海量的數據,在其上進行數據分析與挖掘需要很長的時間
- 數據歸約
用於從源數據中得到數據集的歸約表示,它小的很多,但可以產生相同的(幾乎相同的)效果- 數據歸約策略
維歸約
數據壓縮
數值歸約
離散化和概念分層產生- 用於數據歸約的時間不應超過或“抵消”在歸約后的數據上挖掘節省的時間
維歸約
通過刪除不相干的額屬性和維數減少數據量
- 屬性子集選擇
1找出最小的屬性集,使得數據類的概率分布盡可能接近所有屬性的原分布
2 減少出現在出現模式上的屬性的數目,使得模式更容易於理解- 啟發式的(探索性的)方法
逐步向前選擇
逐步向后刪除
向前選擇和向后刪除相結合
判定歸納樹(分類算法)
基於統計分析的歸約:主成分分析,回歸分析
數據壓縮
- 有損壓縮 vs 無損壓縮
- 字符串壓縮
有廣泛的理論基礎和精妙的算法
通常是無損壓縮
在解壓縮前對字符串的操作非常有限- 音頻/視頻 壓縮
通常是有損壓縮,壓縮精度可以遞進選擇
有時候可以在不解壓整體數據的情況下,重構某個片段- 兩種有損數據壓縮的方法: 小波變換和主要成分分析
數值歸約
- 通過選擇替代的、較小的數據表示形式來減少數據量
- 有參方法:使用一個參數模型估計數據,最后只要存儲參數即可。
線性回歸方法
多元回歸
對數線性模型:近似離散的多維數據概率分布- 無參方法
直方圖
聚類
選樣


主成分相關的程序-python
import pandas as pd
from sklearn.decomposition import PCA
inputfile = '../data/principal_component.xls'
outputfile = '../tmp/dimention_reducted.xls' #降維后的數據
data = pd.read_excel(inputfile, header = None) #讀入數據
pca = PCA()
pca.fit(data)
print pca.components_ #返回模型的各個特征向量
print pca.explained_variance_ratio_ #返回各個成分各自的方差百分比
pca = PCA(3)
pca.fit(data)
low_d = pca.transform(data) #降低唯獨
pd.DataFrame(low_d).toexcel(outputfile) #保存結果
pca.inverse_transform(low_d) #復原數據