Python 混合数据聚类k-prototypes算法的应用

本文转载自查看原文 2020-10-14 17:01 1331

一、k-prototypes算法

k-prototypes算法在聚类的过程中，是将数据的数值型变量和类别型变量拆开，分开计算样本间变量的距离，再将两者相加，视为样本间的距离。

k-prototypes聚类的准则就是使用一个合适的损失函数去度量数值型和分类变量对原型的距离；

二、k-prototypes算法步骤：

1.随机选取k个初始原型(中心点)；

2.针对数据集中的每个样本点，计算样本点与k个原型的距离（数值型变量计算欧氏距离，类别型变量计算汉明距离），将样本点划分到离它最近的中心点所对应的类别中；

3.类别划分完成后，重新确定类别的原型，数值型变量样本取值的均值作为新的原型的特征取值，类别型变量样本取值的众数作为新的原型的特征取值；

4.重复步骤2 3，直到没有样本改变类别，返回最后的聚类结果。

三、k-prototypes算法应用：

import pandas as pd
import numpy as np
from kmodes.kprototypes import KPrototypes

#跳过标题行，选取第二列以后的数据
X = np.genfromtxt('xxx.csv', dtype=str,delimiter=',',skip_header=1)[:, 2:]
print(X)

X[:, 0] = X[:, 0].astype(float)
print(X)
#设定类簇为3
kproto = KPrototypes(n_clusters=3, init='Cao', verbose=2)
#第四列数据（类别类型、3为索引值）进行处理
clusters = kproto.fit_predict(X, categorical=[3])

print(kproto.cluster_centroids_)
print(kproto.cost_)
print(kproto.n_iter_)

lei = []
for  c in clusters:
    #聚类结果存储到列表中
    lei.append(c)
#将聚类结果保存到文件中
data = pd.read_csv('xxx.csv',encoding='gbk')
data['类别'] = lei
data.to_csv('...\xxxx.csv')
print(data)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 k-prototypes聚类算法 Python数据分析笔记：聚类算法之K均值 k-means聚类算法python实现鸢尾花K-means聚类算法_python数据分析与机器学习基于python3的可视化数据聚类系统（k-means算法和k-中心点算法）数据挖掘-聚类分析（Python实现K-Means算法）聚类算法(K-means聚类算法) EM算法及其应用： K-means 与高斯混合模型 K-means聚类算法及python代码实现 MATLAB高斯混合数据的生成