聚類模型(歐式距離)
分類與聚類,分類是有監督的學習,聚類是無監督的學習
K均值算法
第一步:假設有一組樣本,隨機選擇k個樣本,作為k個聚類的中心,計算距離,將樣本划分到離自己最近的類別里。(比如喜歡看的電影:1,30,1【愛情,30分鍾,1 高清】1,31,1)
注意:1,聚類數K必須事先已知,
2,聚類中心的初始選擇會影響最終聚類划分的結果。初始中心盡量選擇距離較遠的樣本
K均值的相關API:
model.fit(x) #輸出類別標簽 ,從0開始
model = SC.KMeans(n_clusters = 4)#幾個聚類中心
y=model.predict(x) #預測x中每個樣本的類別標簽
y = model.labels_ #直接返回每個訓練樣本的類別標簽
#獲取訓練結果的聚類中心
centers = model.cluster_centers_