''' 輪廓系數:-----聚類的評估指標 好的聚類:內密外疏,同一個聚類內部的樣本要足夠密集,不同聚類之間樣本要足夠疏遠。 輪廓系數計算規則:針對樣本空間中的一個特定樣本,計算它與所在聚類其它樣本的平均距離a, 以及該樣本與距離最近的另一個聚類中所有樣本的平均距離b,該樣本的輪廓系數為(b-a)/max(a, b), 將整個樣本空間中所有樣本的輪廓系數取算數平均值,作為聚類划分的性能指標s。 輪廓系數的區間為:[-1, 1]。 -1代表分類效果差,1代表分類效果好。0代表聚類重疊,沒有很好的划分聚類。 輪廓系數相關API: import sklearn.metrics as sm # v:平均輪廓系數 # metric:距離算法:使用歐幾里得距離(euclidean) v = sm.silhouette_score(輸入集, 輸出集, sample_size=樣本數, metric=距離算法) 案例:輸出KMeans算法聚類划分后的輪廓系數。 ''' import numpy as np import matplotlib.pyplot as mp import sklearn.cluster as sc import sklearn.metrics as sm # 讀取數據,繪制圖像 x = np.loadtxt('./ml_data/multiple3.txt', unpack=False, dtype='f8', delimiter=',') print(x.shape) # 基於Kmeans完成聚類 model = sc.KMeans(n_clusters=4) model.fit(x) # 完成聚類 pred_y = model.predict(x) # 預測點在哪個聚類中 print(pred_y) # 輸出每個樣本的聚類標簽 # 打印輪廓系數 print(sm.silhouette_score(x, pred_y, sample_size=len(x), metric='euclidean')) # 獲取聚類中心 centers = model.cluster_centers_ print(centers) # 繪制分類邊界線 l, r = x[:, 0].min() - 1, x[:, 0].max() + 1 b, t = x[:, 1].min() - 1, x[:, 1].max() + 1 n = 500 grid_x, grid_y = np.meshgrid(np.linspace(l, r, n), np.linspace(b, t, n)) bg_x = np.column_stack((grid_x.ravel(), grid_y.ravel())) bg_y = model.predict(bg_x) grid_z = bg_y.reshape(grid_x.shape) # 畫圖顯示樣本數據 mp.figure('Kmeans', facecolor='lightgray') mp.title('Kmeans', fontsize=16) mp.xlabel('X', fontsize=14) mp.ylabel('Y', fontsize=14) mp.tick_params(labelsize=10) mp.pcolormesh(grid_x, grid_y, grid_z, cmap='gray') mp.scatter(x[:, 0], x[:, 1], s=80, c=pred_y, cmap='brg', label='Samples') mp.scatter(centers[:, 0], centers[:, 1], s=300, color='red', marker='+', label='cluster center') mp.legend() mp.show() 輸出結果: (200, 2) [1 1 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 3 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 0 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 1 0 2 1 3 0 2 1 3 0 3 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2 1 3 0 2] 0.5773232071896659 [[5.91196078 2.04980392] [1.831 1.9998 ] [7.07326531 5.61061224] [3.1428 5.2616 ]]