sklearn LDA降維算法


sklearn LDA降維算法

LDA(Linear Discriminant Analysis)線性判斷別分析,可以用於降維和分類。其基本思想是類內散度盡可能小類間散度盡可能大,是一種經典的監督式降維/分類技術。

sklearn代碼實現

#coding=utf-8

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
import numpy as np

def main():
    iris = datasets.load_iris() #典型分類數據模型
    #這里我們數據統一用pandas處理
    data = pd.DataFrame(iris.data, columns=iris.feature_names)
    data['class'] = iris.target
    
    #這里只取兩類
#     data = data[data['class']!=2]
    #為了可視化方便,這里取兩個屬性為例
    X = data[data.columns.drop('class')]
    Y = data['class']
    
    #划分數據集
    X_train, X_test, Y_train, Y_test =train_test_split(X, Y)
    lda = LinearDiscriminantAnalysis(n_components=2)
    lda.fit(X_train, Y_train)
    
    #顯示訓練結果
    print lda.means_ #中心點
    print lda.score(X_test, Y_test) #score是指分類的正確率
    print lda.scalings_ #score是指分類的正確率

    X_2d = lda.transform(X) #現在已經降到二維X_2d=np.dot(X-lda.xbar_,lda.scalings_)
    #對於二維數據,我們做個可視化
    #區域划分
    lda.fit(X_2d,Y)
    h = 0.02
    x_min, x_max = X_2d[:, 0].min() - 1, X_2d[:, 0].max() + 1
    y_min, y_max = X_2d[:, 1].min() - 1, X_2d[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = lda.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

    #做出原來的散點圖
    class1_x = X_2d[Y==0,0]
    class1_y = X_2d[Y==0,1]
    l1 = plt.scatter(class1_x,class1_y,color='b',label=iris.target_names[0])
    class1_x = X_2d[Y==1,0]
    class1_y = X_2d[Y==1,1]
    l2 = plt.scatter(class1_x,class1_y,color='y',label=iris.target_names[1])
    class1_x = X_2d[Y==2,0]
    class1_y = X_2d[Y==2,1]
    l3 = plt.scatter(class1_x,class1_y,color='r',label=iris.target_names[2])
    
    plt.legend(handles = [l1, l2, l3], loc = 'best')
    
    plt.grid(True)
    plt.show()

if __name__ == '__main__':
    main()

測試結果

Means: #各類的中心點
[[ 5.00810811  3.41891892  1.44594595  0.23513514]
 [ 6.06410256  2.80769231  4.32564103  1.33589744]
 [ 6.61666667  2.97222222  5.63055556  2.02777778]]
Score: #對於測試集的正確率
0.973684210526
Scalings: 
[[ 1.19870893  0.76465114]
 [ 1.20339741 -2.46937995]
 [-2.55937543  0.42562073]
 [-2.77824826 -2.4470865 ]]
Xbar:
[ 5.89285714  3.0625      3.79375     1.19464286]
#X'=np.dot(X-lda.xbar_,lda.scalings_)默認的線性變化方程


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM