聚類算法(K-means聚類算法)


在數據分析挖掘過程中常用的聚類算法有1.K-Means聚類,2.K-中心點,3.系統聚類.

1.K-均值聚類在最小誤差基礎上將數據划分為預定的類數K(采用距離作為相似性的評價指標).每次都要遍歷數據,所以大數據速度慢

2.k-中心點,不采用K-means中的平均值作為簇中心點,而是選中距離平均值最近的點最為簇中心點.

3.系統聚類又叫多層次聚類,分類是由高到低(可以想象下二叉樹這種結構),越靠后,包含的數據點越少,但共同特征越多,缺點是不適合大數據量,速度慢.

K-mans聚類實戰代碼:

#-*- coding: utf-8 -*-
'''
聚類離散化,最后的result的格式為:
      1           2           3           4
A     0    0.178698    0.257724    0.351843
An  240  356.000000  281.000000   53.000000
即(0, 0.178698]有240個,(0.178698, 0.257724]有356個,依此類推。
'''
from __future__ import print_function
import pandas as pd
from sklearn.cluster import KMeans #導入K均值聚類算法

datafile = '../data/data.xls' #待聚類的數據文件
processedfile = '../tmp/data_processed.xls' #數據處理后文件
typelabel ={u'肝氣郁結證型系數':'A', u'熱毒蘊結證型系數':'B', u'沖任失調證型系數':'C', u'氣血兩虛證型系數':'D', u'脾胃虛弱證型系數':'E', u'肝腎陰虛證型系數':'F'}
k = 4 #需要進行的聚類類別數

#讀取數據並進行聚類分析
data = pd.read_excel(datafile) #讀取數據,data是個dataframe
keys = list(typelabel.keys())

result = pd.DataFrame() #聲明一個空DataFrame結構

if __name__ == '__main__': #判斷是否主窗口運行,如果是將代碼保存為.py后運行,則需要這句,如果直接復制到命令窗口運行,則不需要這句。
  for i in range(len(keys)):
    #調用k-means算法,進行聚類離散化
    print(u'正在進行“%s”的聚類...' % keys[i])
    kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是並行數,一般等於CPU數較好
    # print(data[[keys[i]]].as_matrix());exit();
    kmodel.fit(data[[keys[i]]].as_matrix()) #訓練模型,as_matrix()轉化為Numpy數組,返回指定數列
    # print(data[[keys[i]]]);exit();
    r1 = pd.DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) #聚類中心,kmodel.cluster_centers_返回四個聚類中心點
    #選取K個初始類簇中心(通常是從數據集隨機選取K個數據)的情況下,遍歷數據集中所有點,計算到K個聚類中心點的距離,那個距離最近,
    # 就分配到該類簇中心所代表的類簇,分配完畢后,重新選取K個類簇的中心點(K個類簇各自的平均值),重新遍歷數據集到K個類簇中心的距離,
    # 直到類簇中心點的變化很小,或者達到指定的迭代(計算)次數.
    # 缺點:可能收斂到局部最小值(受到初始簇中心的影響),
    # 在大規模數據集上收斂較慢(每次迭代均需要歷遍數據集中的每一個數據樣本,且迭代次數默認值為300)
    # print([typelabel[keys[i]]]);

    r2 = pd.Series(kmodel.labels_).value_counts() #分類統計,K個聚類各有多少個數據點
    #DataFrame和Series是pandas的兩種數據結構,series理解為索引數組,DataFrame是Series組成的二維數據,具有航索引和列索引,形狀理解為矩陣

    r2 = pd.DataFrame(r2, columns = [typelabel[keys[i]]+'n']) #轉為DataFrame,記錄各個類別的數目
    # print(r2);exit();
    r = pd.concat([r1, r2], axis = 1).sort_values(typelabel[keys[i]]) #匹配聚類中心和類別數目,sort_values按某列排序
    # print(r);exit();
    r.index = [1, 2, 3, 4]
    
    r[typelabel[keys[i]]] = pd.Series.rolling(r[typelabel[keys[i]]], 2).mean() #rolling_mean()用來計算相鄰2列的均值
    # (廢棄rolling_mean,用Series.rolling().mean()代替),以此作為邊界點。
    r[typelabel[keys[i]]][1] = 0.0 #這兩句代碼將原來的聚類中心改為邊界點。
    result = result.append(r.T)

  result = result.sort_index() #以Index排序,即以A,B,C,D,E,F順序排
  result.to_excel(processedfile)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM