概念

聚類分析：是按照個體的特征將它們分類，讓同一個類別內的個體之間具有較高的相似度，不同類別之間具有較大差異性
無分類目標變量(Y)——無監督學習

K-Means划分法、DBSCAN密度法、層次聚類法

1、導入數據

 1 import pandas
 2 from sklearn.cluster import KMeans
 3 from sklearn.decomposition import PCA
 4 
 5 import matplotlib.pyplot as plt
 6 
 7 f=open("D:\\學習資料\\Python數據挖掘實戰課程課件\\7.1\\data.csv",encoding='UTF-8')
 8 data=pandas.read_csv(f)
 9 
10 fColumns=[
11     '工作日上班時電話時長', '工作日下半時電話時長', 
12     '周末電話時長', 
13     '國際電話時長', '總電話時長', '平均每次通話時長'
14 ]

View Code

2、確定特征變量，特征變量之間的相關系數，確定因變量，重新確定特征變量

 1 import matplotlib
 2 from pandas.tools.plotting import scatter_matrix
 3 
 4 font={
 5       "family":"SimHei"}
 6 
 7 matplotlib.rc("font",**font)
 8 matplotlib.rcParams["axes.unicode_minus"]=False
 9 
10 #%matplotlib qt
11 
12 scatter_matrix(
13         data[fColumns],
14         figsize=(10,10),diagonal="hist")
15 
16 
17 dCorr=data[fColumns].corr()
18 
19 
20 fColumns=[
21     '工作日上班時電話時長', '工作日下半時電話時長', 
22     '周末電話時長', 
23     '國際電話時長', '平均每次通話時長'
24 ]

View Code

3、降維、設定質心

 1 #降維
 2 pca_2=PCA(n_components=2)
 3 data_pca_2=pandas.DataFrame(
 4         pca_2.fit_transform(data[fColumns]))
 5 
 6 plt.scatter(
 7         data_pca_2[0],
 8         data_pca_2[1])
 9 
10 
11 kmModel=KMeans(n_clusters=3)
12 kmModel=kmModel.fit(data[fColumns])

View Code

4、對圖像分類並畫圖

 1 #對圖像進行分類
 2 pTarget=kmModel.predict(data[fColumns])
 3 
 4 pandas.crosstab(pTarget,pTarget)  #看每類別的個數
 5 
 6 
 7 plt.scatter(
 8         data_pca_2[0],
 9         data_pca_2[1],
10         c=pTarget
11         )

View Code

5、不同特征量之間的相關性

 1 dMean=pandas.DataFrame(columns=fColumns+["分類"])
 2 data_gb=data[fColumns].groupby(pTarget)
 3 
 4 i=0
 5 for g in data_gb.groups:
 6     print(g)
 7     rMean=data_gb.get_group(g).mean()    #rMean是一個series結構
 8     print(rMean)
 9     rMean["分類"]=g        #在最后追加一行
10     dMean=dMean.append(rMean,ignore_index=True)   #將series添加在dataframe中
11     subData=data_gb.get_group(g)  
12     for column in fColumns:
13         print(column)
14         i=i+1
15         p=plt.subplot(3,5,i)
16         p.set_title(column)
17         p.set_ylabel(str(g)+"分類")
18         plt.hist(subData[column],bins=20)