數據預處理之數據規約（Data Reduction）

本文轉載自查看原文 2018-06-26 20:37 1922 機器學習

數據歸約策略

數據倉庫中往往具有海量的數據，在其上進行數據分析與挖掘需要很長的時間

數據歸約
用於從源數據中得到數據集的歸約表示，它小的很多，但可以產生相同的（幾乎相同的）效果

數據歸約策略
維歸約
數據壓縮
數值歸約
離散化和概念分層產生

用於數據歸約的時間不應超過或“抵消”在歸約后的數據上挖掘節省的時間

維歸約

通過刪除不相干的額屬性和維數減少數據量

屬性子集選擇
1找出最小的屬性集，使得數據類的概率分布盡可能接近所有屬性的原分布
2 減少出現在出現模式上的屬性的數目，使得模式更容易於理解

啟發式的（探索性的）方法
逐步向前選擇
逐步向后刪除
向前選擇和向后刪除相結合
判定歸納樹（分類算法）
基於統計分析的歸約：主成分分析，回歸分析

數據壓縮

有損壓縮 vs 無損壓縮

字符串壓縮
有廣泛的理論基礎和精妙的算法
通常是無損壓縮
在解壓縮前對字符串的操作非常有限

音頻/視頻壓縮
通常是有損壓縮，壓縮精度可以遞進選擇
有時候可以在不解壓整體數據的情況下，重構某個片段

兩種有損數據壓縮的方法：小波變換和主要成分分析

數值歸約

通過選擇替代的、較小的數據表示形式來減少數據量

有參方法：使用一個參數模型估計數據，最后只要存儲參數即可。
線性回歸方法
多元回歸
對數線性模型：近似離散的多維數據概率分布

無參方法
直方圖
聚類
選樣

主成分相關的程序-python


import pandas as pd 
from sklearn.decomposition import PCA 
inputfile = '../data/principal_component.xls' 
outputfile = '../tmp/dimention_reducted.xls' #降維后的數據 
data = pd.read_excel(inputfile, header = None) #讀入數據 
pca = PCA() 
pca.fit(data) 
print pca.components_ #返回模型的各個特征向量 
print pca.explained_variance_ratio_ #返回各個成分各自的方差百分比 
pca = PCA(3) 
pca.fit(data) 
low_d = pca.transform(data) #降低唯獨 
pd.DataFrame(low_d).toexcel(outputfile) #保存結果 
pca.inverse_transform(low_d) #復原數據

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 神經網絡中的數據預處理方法 Data Preprocessing 數據預處理數據探索和預處理數據預處理數據預處理技術 weka數據預處理 tensorflow 數據預處理 3.1數據的預處理數據預處理 sklearn數據預處理