1 k-prototypes聚類

K-prototype是K-means與K-modes的一種集合形式，適用於數值類型與字符類型集合的混合型數據。

k-prototypes算法在聚類的過程中，是將數據的數值型變量和類別型變量拆開，分開計算樣本間變量的距離，再將兩者相加，視為樣本間的距離。

k-prototypes聚類的准則就是使用一個合適的損失函數去度量數值型和分類變量對原型的距離；

1.隨機選取k個初始原型(中心點)；

2.針對數據集中的每個樣本點，計算樣本點與k個原型的距離（數值型變量計算歐氏距離，類別型變量計算漢明距離），將樣本點划分到離它最近的中心點所對應的類別中；

3.類別划分完成后，重新確定類別的原型，數值型變量樣本取值的均值作為新的原型的特征取值，類別型變量樣本取值的眾數作為新的原型的特征取值；

4.重復步驟2 3，直到沒有樣本改變類別，返回最后的聚類結果。

from kmodes.kprototypes import KPrototypes

手肘法（elbow method）
手肘法的核心指標是SSE(sum of the squared errors，誤差平方和)，

簡單說，加入k值=1，那么誤差會極大，加入k值趨向於樣本量，那么每一個樣本點就是一個簇，那肯定沒有誤差，但是脫離聚類算法本意。我們想找的，就是隨着k值不斷增加，誤差越來越小，到底達到那個k值的時候，誤差平方SSE會開始不再“明顯大幅度降低”，而趨於平緩。這個圖做出來就像一個手肘一樣，因此叫手肘法。

sklearn.externals.joblib函數是用在0.21及以前的版本中，在最新的版本中，該函數應被棄用

安裝：pip install joblib

import joblib
# 4.3 模型保存
joblib.dump(estimator, './test.pkl')  # estimator: 指的是訓練好的模型實例(評估器)
# 4.4 模型加載
estimator = joblib.load("./test.pkl")

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 混合數據聚類k-prototypes算法的應用聚類算法(K-means聚類算法) 聚類和EM算法——K均值聚類聚類算法——K-means（上） K-means聚類算法聚類之K均值聚類和EM算法 K-均值聚類算法 K-Means 聚類算法 K-means聚類算法 K-Means聚類算法