sklearn中的數據預處理----good!! 標准化歸一化在何時使用

http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#example-cluster-plot-dbscan-py

Demo of DBSCAN clustering algorithm

https://chrisalbon.com/machine_learning/clustering/k-means_clustering/ 這里的iris聚類也用到了

k-Means Clustering

Preliminaries

# Load libraries from sklearn import datasets from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans

Load Iris Flower Dataset

# Load data iris = datasets.load_iris() X = iris.data

Standardize Features

# Standarize features scaler = StandardScaler() X_std = scaler.fit_transform(X)

Conduct k-Means Clustering

# Create k-mean object clt = KMeans(n_clusters=3, random_state=0, n_jobs=-1) # Train model model = clt.fit(X_std)

Show Each Observation’s Cluster Membership

# View predict class model.labels_

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 0, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 0, 2, 2, 2, 2, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 2, 2,
       0, 0, 0, 0, 2, 0, 2, 0, 2, 0, 0, 2, 0, 0, 0, 0, 0, 0, 2, 2, 0, 0, 0,
       2, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 2], dtype=int32)

Create New Observation

# Create new observation new_observation = [[0.8, 0.8, 0.8, 0.8]]

Predict Observation’s Cluster

# Predict observation's cluster model.predict(new_observation)

array([0], dtype=int32)

View Centers Of Each Cluster

# View cluster centers model.cluster_centers_

array([[ 1.13597027,  0.09659843,  0.996271  ,  1.01717187],
       [-1.01457897,  0.84230679, -1.30487835, -1.25512862],
       [-0.05021989, -0.88029181,  0.34753171,  0.28206327]])

詳細見：詳見http://d0evi1.com/sklearn/preprocessing/

標准化

最小-最大規范化

規范化:正則化

特征二值化

標簽二值化

類別特征編碼

標簽編碼

含有異常值

生成多項式

一、標准化（Z-Score），或者去除均值和方差縮放

將數據按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有數據都聚集在0附近，方差為1。

二、將屬性縮放到一個指定范圍

除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這可以通過preprocessing.MinMaxScaler類實現。

當然，在構造類對象的時候也可以直接指定最大最小值的范圍：feature_range=(min, max)，此時應用的公式變為：

三、正則化（Normalization）

正則化的過程是將每個樣本縮放到單位范數（每個樣本的范數為1），如果后面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

Normalization主要思想是對每個樣本計算其p-范數，然后對該樣本中每個元素除以該范數，這樣處理的結果是使得每個處理后樣本的p-范數（l1-norm,l2-norm）等於1。

該方法主要應用於文本分類和聚類中。例如，對於兩個TF-IDF向量的l2-norm進行點積，就可以得到這兩個向量的余弦相似性。

2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換：