模糊C均值聚类算法及python实现


目录

模糊理论

Fuzzy C-Means算法原理

算法步骤

python实现


本文采用数据集为iris,将iris.txt放在程序的同一文件夹下。请先自行下载好。

模糊理论

模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L. A. Zadeh发表模糊集合“Fuzzy Sets”的论文, 首次引入隶属度函数的概念,打破了经典数学“非0即 1”的局限性,用[0,1]之间的实数来描述中间状态。

很多经典的集合(即:论域U内的某个元素是否属于集合A,可以用一个数值来表示。在经典集合中,要么0,要么1)不能描述很多事物的属性,需要用模糊性词语来判断。比如天气冷热程度、人的胖瘦程度等等。模糊数学和模糊逻辑把只取1或0二值(属于/不属于)的普通集合概念推广0~1区间内的多个取值,即隶属度。用“隶属度”来描述元素和集合之间的关系。

如图所示,对于冷热程度,我们采取三个模糊子集:冷、暖、热。对于某一个温度,可能同时属于两个子集。要进一步具体判断,我们就需要提供一个描述“程度”的函数,即隶属度。

例如,身高可以分为“高”、“中等”、“矮”三个子集。取论域U(即人的身高范围)为[1.0,3.0],单位m。在U上定义三个隶属度函数来确定身高与三个模糊子集的关系:

模糊规则的设定

(1)专家的经验和知识

– 藉由询问经验丰富的专家,在获得系统的知 识后,将知识改为IF....THEN ....的型式。

(2)操作员的操作模式

– 记录熟练的操作员的操作模式,并将其整理为IF....THEN ....的型式。

(3)自学习

– 设定的模糊规则可能存在偏差,模糊控制器能依设定的目标,增加或修改模糊控制规则

Fuzzy C-Means算法原理

模糊c均值聚类融合了模糊理论的精髓。相较于k-means的硬聚类,模糊c提供了更加灵活的聚类结果。因为大部分情况下,数据集中的对象不能划分成为明显分离的簇,指派一个对象到一个特定的簇有些生硬,也可能会出错。故,对每个对象和每个簇赋予一个权值,指明对象属于该簇的程度。当然,基于概率的方法也可以给出这样的权值,但是有时候我们很难确定一个合适的统计模型,因此使用具有自然地、非概率特性的模糊c均值就是一个比较好的选择。

简单地说,就是要最小化目标函数Jm:(在一些资料中也定义为SSE即误差的平方和)

其中m是聚类的簇数;i,j是类标号;u_i_j表示样本x_i属于j类的隶属度。i表示第i个样本,x是具有d维特征的一个样本。c_j是j簇的中心,也具有d维度。||*||可以是任意表示距离的度量。》。

模糊c是一个不断迭代计算隶属度u_i_j和簇中心c_j的过程,直到他们达到最优。

注:对于单个样本x_i,它对于每个簇的隶属度之和为1。

迭代的终止条件为:

其中k是迭代步数,\varepsilon是误差阈值。上式含义是,继续迭代下去,隶属程度也不会发生较大的变化。即认为隶属度不变了,已经达到比较优(局部最优或全局最优)状态了。该过程收敛于目标Jm的局部最小值或鞍点

抛开复杂的算式,这个算法的意思就是:给每个样本赋予属于每个簇的隶属度函数。通过隶属度值大小来将样本归类。

算法步骤

1、初始化

通常采用随机初始化。即权值随机地选取。簇数需要人为选定。

2、计算质心

FCM中的质心有别于传统质心的地方在于,它是以隶属度为权重做一个加权平均。

3、更新模糊伪划分

即更新权重(隶属度)。简单地说,如果x越靠近质心c,则隶属度越高,反之越低。

python实现

这段代码是以iris数据集为例的,雏形源于网络,在错误的地方做了一些修正。是专门针对iris写的:

如果要使用你自己的数据集,请看第二段代码。


   
   
  
  
  1. #!/usr/bin/env python3
  2. # -*- coding: utf-8 -*-
  3. """
  4. Created on Wed Mar 27 10:51:45 2019
  5. @author: youxinlin
  6. """
  7. import copy
  8. import math
  9. import random
  10. import time
  11. global MAX # 用于初始化隶属度矩阵U
  12. MAX = 10000.0
  13. global Epsilon # 结束条件
  14. Epsilon = 0.0000001
  15. def import_data_format_iris(file):
  16. """
  17. file这里是输入文件的路径,如iris.txt.
  18. 格式化数据,前四列为data,最后一列为类标号(有0,1,2三类)
  19. 如果是你自己的data,就不需要执行此段函数了。
  20. """
  21. data = []
  22. cluster_location =[]
  23. with open(str(file), 'r') as f:
  24. for line in f:
  25. current = line.strip().split( ",") #对每一行以逗号为分割,返回一个list
  26. current_dummy = []
  27. for j in range( 0, len(current) -1):
  28. current_dummy.append(float(current[j])) #current_dummy存放data
  29. #下面注这段话提供了一个范例:若类标号不是0,1,2之类数字时该怎么给数据集
  30. j += 1
  31. if current[j] == "Iris-setosa\n":
  32. cluster_location.append( 0)
  33. elif current[j] == "Iris-versicolor\n":
  34. cluster_location.append( 1)
  35. else:
  36. cluster_location.append( 2)
  37. data.append(current_dummy)
  38. print( "加载数据完毕")
  39. return data
  40. # return data , cluster_location
  41. def randomize_data(data):
  42. """
  43. 该功能将数据随机化,并保持随机化顺序的记录
  44. """
  45. order = list(range( 0, len(data)))
  46. random.shuffle(order)
  47. new_data = [[] for i in range( 0, len(data))]
  48. for index in range( 0, len(order)):
  49. new_data[index] = data[order[index]]
  50. return new_data, order
  51. def de_randomise_data(data, order):
  52. """
  53. 此函数将返回数据的原始顺序,将randomise_data()返回的order列表作为参数
  54. """
  55. new_data = [[] for i in range( 0, len(data))]
  56. for index in range(len(order)):
  57. new_data[order[index]] = data[index]
  58. return new_data
  59. def print_matrix(list):
  60. """
  61. 以可重复的方式打印矩阵
  62. """
  63. for i in range( 0, len(list)):
  64. print (list[i])
  65. def initialize_U(data, cluster_number):
  66. """
  67. 这个函数是隶属度矩阵U的每行加起来都为1. 此处需要一个全局变量MAX.
  68. """
  69. global MAX
  70. U = []
  71. for i in range( 0, len(data)):
  72. current = []
  73. rand_sum = 0.0
  74. for j in range( 0, cluster_number):
  75. dummy = random.randint( 1,int(MAX))
  76. current.append(dummy)
  77. rand_sum += dummy
  78. for j in range( 0, cluster_number):
  79. current[j] = current[j] / rand_sum
  80. U.append(current)
  81. return U
  82. def distance(point, center):
  83. """
  84. 该函数计算2点之间的距离(作为列表)。我们指欧几里德距离。闵可夫斯基距离
  85. """
  86. if len(point) != len(center):
  87. return -1
  88. dummy = 0.0
  89. for i in range( 0, len(point)):
  90. dummy += abs(point[i] - center[i]) ** 2
  91. return math.sqrt(dummy)
  92. def end_conditon(U, U_old):
  93. """
  94. 结束条件。当U矩阵随着连续迭代停止变化时,触发结束
  95. """
  96. global Epsilon
  97. for i in range( 0, len(U)):
  98. for j in range( 0, len(U[ 0])):
  99. if abs(U[i][j] - U_old[i][j]) > Epsilon :
  100. return False
  101. return True
  102. def normalise_U(U):
  103. """
  104. 在聚类结束时使U模糊化。每个样本的隶属度最大的为1,其余为0
  105. """
  106. for i in range( 0, len(U)):
  107. maximum = max(U[i])
  108. for j in range( 0, len(U[ 0])):
  109. if U[i][j] != maximum:
  110. U[i][j] = 0
  111. else:
  112. U[i][j] = 1
  113. return U
  114. # m的最佳取值范围为[1.5,2.5]
  115. def fuzzy(data, cluster_number, m):
  116. """
  117. 这是主函数,它将计算所需的聚类中心,并返回最终的归一化隶属矩阵U.
  118. 参数是:簇数(cluster_number)和隶属度的因子(m)
  119. """
  120. # 初始化隶属度矩阵U
  121. U = initialize_U(data, cluster_number)
  122. # print_matrix(U)
  123. # 循环更新U
  124. while ( True):
  125. # 创建它的副本,以检查结束条件
  126. U_old = copy.deepcopy(U)
  127. # 计算聚类中心
  128. C = []
  129. for j in range( 0, cluster_number):
  130. current_cluster_center = []
  131. for i in range( 0, len(data[ 0])):
  132. dummy_sum_num = 0.0
  133. dummy_sum_dum = 0.0
  134. for k in range( 0, len(data)):
  135. # 分子
  136. dummy_sum_num += (U[k][j] ** m) * data[k][i]
  137. # 分母
  138. dummy_sum_dum += (U[k][j] ** m)
  139. # 第i列的聚类中心
  140. current_cluster_center.append(dummy_sum_num/dummy_sum_dum)
  141. # 第j簇的所有聚类中心
  142. C.append(current_cluster_center)
  143. # 创建一个距离向量, 用于计算U矩阵。
  144. distance_matrix =[]
  145. for i in range( 0, len(data)):
  146. current = []
  147. for j in range( 0, cluster_number):
  148. current.append(distance(data[i], C[j]))
  149. distance_matrix.append(current)
  150. # 更新U
  151. for j in range( 0, cluster_number):
  152. for i in range( 0, len(data)):
  153. dummy = 0.0
  154. for k in range( 0, cluster_number):
  155. # 分母
  156. dummy += (distance_matrix[i][j ] / distance_matrix[i][k]) ** ( 2/(m -1))
  157. U[i][j] = 1 / dummy
  158. if end_conditon(U, U_old):
  159. print ( "结束聚类")
  160. break
  161. print ( "标准化 U")
  162. U = normalise_U(U)
  163. return U
  164. def checker_iris(final_location):
  165. """
  166. 和真实的聚类结果进行校验比对
  167. """
  168. right = 0.0
  169. for k in range( 0, 3):
  170. checker =[ 0, 0, 0]
  171. for i in range( 0, 50):
  172. for j in range( 0, len(final_location[ 0])):
  173. if final_location[i + ( 50*k)][j] == 1: #i+(50*k)表示 j表示第j类
  174. checker[j] += 1 #checker分别统计每一类分类正确的个数
  175. right += max(checker) #累加分类正确的个数
  176. print ( '分类正确的个数是:',right)
  177. answer = right / 150 * 100
  178. return "准确率:" + str(answer) + "%"
  179. if __name__ == '__main__':
  180. # 加载数据
  181. data = import_data_format_iris( "iris.txt")
  182. # print_matrix(data)
  183. # 随机化数据
  184. data , order = randomize_data(data)
  185. # print_matrix(data)
  186. start = time.time()
  187. # 现在我们有一个名为data的列表,它只是数字
  188. # 我们还有另一个名为cluster_location的列表,它给出了正确的聚类结果位置
  189. # 调用模糊C均值函数
  190. final_location = fuzzy(data , 3 , 2)
  191. # 还原数据
  192. final_location = de_randomise_data(final_location, order)
  193. # print_matrix(final_location)
  194. # 准确度分析
  195. print (checker_iris(final_location))
  196. print ( "用时:{0}".format(time.time() - start))

如果要用你自己的数据集做聚类:替换下面代码的data为你自己的数据集;自己写一个准确率的判断方法。


   
   
  
  
  1. #!/usr/bin/env python3
  2. # -*- coding: utf-8 -*-
  3. """
  4. Created on Wed Mar 27 10:51:45 2019
  5. 模糊c聚类:https://blog.csdn.net/lyxleft/article/details/88964494
  6. @author: youxinlin
  7. """
  8. import copy
  9. import math
  10. import random
  11. import time
  12. global MAX # 用于初始化隶属度矩阵U
  13. MAX = 10000.0
  14. global Epsilon # 结束条件
  15. Epsilon = 0.0000001
  16. def print_matrix(list):
  17. """
  18. 以可重复的方式打印矩阵
  19. """
  20. for i in range( 0, len(list)):
  21. print (list[i])
  22. def initialize_U(data, cluster_number):
  23. """
  24. 这个函数是隶属度矩阵U的每行加起来都为1. 此处需要一个全局变量MAX.
  25. """
  26. global MAX
  27. U = []
  28. for i in range( 0, len(data)):
  29. current = []
  30. rand_sum = 0.0
  31. for j in range( 0, cluster_number):
  32. dummy = random.randint( 1,int(MAX))
  33. current.append(dummy)
  34. rand_sum += dummy
  35. for j in range( 0, cluster_number):
  36. current[j] = current[j] / rand_sum
  37. U.append(current)
  38. return U
  39. def distance(point, center):
  40. """
  41. 该函数计算2点之间的距离(作为列表)。我们指欧几里德距离。闵可夫斯基距离
  42. """
  43. if len(point) != len(center):
  44. return -1
  45. dummy = 0.0
  46. for i in range( 0, len(point)):
  47. dummy += abs(point[i] - center[i]) ** 2
  48. return math.sqrt(dummy)
  49. def end_conditon(U, U_old):
  50. """
  51. 结束条件。当U矩阵随着连续迭代停止变化时,触发结束
  52. """
  53. global Epsilon
  54. for i in range( 0, len(U)):
  55. for j in range( 0, len(U[ 0])):
  56. if abs(U[i][j] - U_old[i][j]) > Epsilon :
  57. return False
  58. return True
  59. def normalise_U(U):
  60. """
  61. 在聚类结束时使U模糊化。每个样本的隶属度最大的为1,其余为0
  62. """
  63. for i in range( 0, len(U)):
  64. maximum = max(U[i])
  65. for j in range( 0, len(U[ 0])):
  66. if U[i][j] != maximum:
  67. U[i][j] = 0
  68. else:
  69. U[i][j] = 1
  70. return U
  71. def fuzzy(data, cluster_number, m):
  72. """
  73. 这是主函数,它将计算所需的聚类中心,并返回最终的归一化隶属矩阵U.
  74. 输入参数:簇数(cluster_number)、隶属度的因子(m)的最佳取值范围为[1.5,2.5]
  75. """
  76. # 初始化隶属度矩阵U
  77. U = initialize_U(data, cluster_number)
  78. # print_matrix(U)
  79. # 循环更新U
  80. while ( True):
  81. # 创建它的副本,以检查结束条件
  82. U_old = copy.deepcopy(U)
  83. # 计算聚类中心
  84. C = []
  85. for j in range( 0, cluster_number):
  86. current_cluster_center = []
  87. for i in range( 0, len(data[ 0])):
  88. dummy_sum_num = 0.0
  89. dummy_sum_dum = 0.0
  90. for k in range( 0, len(data)):
  91. # 分子
  92. dummy_sum_num += (U[k][j] ** m) * data[k][i]
  93. # 分母
  94. dummy_sum_dum += (U[k][j] ** m)
  95. # 第i列的聚类中心
  96. current_cluster_center.append(dummy_sum_num/dummy_sum_dum)
  97. # 第j簇的所有聚类中心
  98. C.append(current_cluster_center)
  99. # 创建一个距离向量, 用于计算U矩阵。
  100. distance_matrix =[]
  101. for i in range( 0, len(data)):
  102. current = []
  103. for j in range( 0, cluster_number):
  104. current.append(distance(data[i], C[j]))
  105. distance_matrix.append(current)
  106. # 更新U
  107. for j in range( 0, cluster_number):
  108. for i in range( 0, len(data)):
  109. dummy = 0.0
  110. for k in range( 0, cluster_number):
  111. # 分母
  112. dummy += (distance_matrix[i][j ] / distance_matrix[i][k]) ** ( 2/(m -1))
  113. U[i][j] = 1 / dummy
  114. if end_conditon(U, U_old):
  115. print ( "已完成聚类")
  116. break
  117. U = normalise_U(U)
  118. return U
  119. if __name__ == '__main__':
  120. data= [[ 6.1, 2.8, 4.7, 1.2], [ 5.1, 3.4, 1.5, 0.2], [ 6.0, 3.4, 4.5, 1.6], [ 4.6, 3.1, 1.5, 0.2], [ 6.7, 3.3, 5.7, 2.1], [ 7.2, 3.0, 5.8, 1.6], [ 6.7, 3.1, 4.4, 1.4], [ 6.4, 2.7, 5.3, 1.9], [ 4.8, 3.0, 1.4, 0.3], [ 7.9, 3.8, 6.4, 2.0], [ 5.2, 3.5, 1.5, 0.2], [ 5.9, 3.0, 5.1, 1.8], [ 5.7, 2.8, 4.1, 1.3], [ 6.8, 3.2, 5.9, 2.3], [ 5.4, 3.4, 1.5, 0.4], [ 5.4, 3.7, 1.5, 0.2], [ 6.6, 3.0, 4.4, 1.4], [ 5.1, 3.5, 1.4, 0.2], [ 6.0, 2.2, 4.0, 1.0], [ 7.7, 2.8, 6.7, 2.0], [ 6.3, 2.8, 5.1, 1.5], [ 7.4, 2.8, 6.1, 1.9], [ 5.5, 4.2, 1.4, 0.2], [ 5.7, 3.0, 4.2, 1.2], [ 5.5, 2.6, 4.4, 1.2], [ 5.2, 3.4, 1.4, 0.2], [ 4.9, 3.1, 1.5, 0.1], [ 4.6, 3.6, 1.0, 0.2], [ 4.6, 3.2, 1.4, 0.2], [ 5.8, 2.7, 3.9, 1.2], [ 5.0, 3.4, 1.5, 0.2], [ 6.1, 3.0, 4.6, 1.4], [ 4.7, 3.2, 1.6, 0.2], [ 6.7, 3.3, 5.7, 2.5], [ 6.5, 3.0, 5.8, 2.2], [ 5.4, 3.4, 1.7, 0.2], [ 5.8, 2.7, 5.1, 1.9], [ 5.4, 3.9, 1.3, 0.4], [ 5.3, 3.7, 1.5, 0.2], [ 6.1, 3.0, 4.9, 1.8], [ 7.2, 3.2, 6.0, 1.8], [ 5.5, 2.3, 4.0, 1.3], [ 5.7, 2.8, 4.5, 1.3], [ 4.9, 2.4, 3.3, 1.0], [ 5.4, 3.0, 4.5, 1.5], [ 5.0, 3.5, 1.6, 0.6], [ 5.2, 4.1, 1.5, 0.1], [ 5.8, 4.0, 1.2, 0.2], [ 5.4, 3.9, 1.7, 0.4], [ 6.5, 3.2, 5.1, 2.0], [ 5.5, 2.4, 3.7, 1.0], [ 5.0, 3.5, 1.3, 0.3], [ 6.3, 2.5, 5.0, 1.9], [ 6.9, 3.1, 4.9, 1.5], [ 6.2, 2.2, 4.5, 1.5], [ 6.3, 3.3, 4.7, 1.6], [ 6.4, 3.2, 4.5, 1.5], [ 4.7, 3.2, 1.3, 0.2], [ 5.5, 2.4, 3.8, 1.1], [ 5.0, 2.0, 3.5, 1.0], [ 4.4, 2.9, 1.4, 0.2], [ 4.8, 3.4, 1.9, 0.2], [ 6.3, 3.4, 5.6, 2.4], [ 5.5, 2.5, 4.0, 1.3], [ 5.7, 2.5, 5.0, 2.0], [ 6.5, 3.0, 5.2, 2.0], [ 6.7, 3.0, 5.0, 1.7], [ 5.2, 2.7, 3.9, 1.4], [ 6.9, 3.1, 5.1, 2.3], [ 7.2, 3.6, 6.1, 2.5], [ 4.8, 3.0, 1.4, 0.1], [ 6.3, 2.9, 5.6, 1.8], [ 5.1, 3.5, 1.4, 0.3], [ 6.9, 3.1, 5.4, 2.1], [ 5.6, 3.0, 4.1, 1.3], [ 7.7, 2.6, 6.9, 2.3], [ 6.4, 2.9, 4.3, 1.3], [ 5.8, 2.7, 4.1, 1.0], [ 6.1, 2.9, 4.7, 1.4], [ 5.7, 2.9, 4.2, 1.3], [ 6.2, 2.8, 4.8, 1.8], [ 4.8, 3.4, 1.6, 0.2], [ 5.6, 2.9, 3.6, 1.3], [ 6.7, 2.5, 5.8, 1.8], [ 5.0, 3.4, 1.6, 0.4], [ 6.3, 3.3, 6.0, 2.5], [ 5.1, 3.8, 1.9, 0.4], [ 6.6, 2.9, 4.6, 1.3], [ 5.1, 3.3, 1.7, 0.5], [ 6.3, 2.5, 4.9, 1.5], [ 6.4, 3.1, 5.5, 1.8], [ 6.2, 3.4, 5.4, 2.3], [ 6.7, 3.1, 5.6, 2.4], [ 4.6, 3.4, 1.4, 0.3], [ 5.5, 3.5, 1.3, 0.2], [ 5.6, 2.7, 4.2, 1.3], [ 5.6, 2.8, 4.9, 2.0], [ 6.2, 2.9, 4.3, 1.3], [ 7.0, 3.2, 4.7, 1.4], [ 5.0, 3.2, 1.2, 0.2], [ 4.3, 3.0, 1.1, 0.1], [ 7.7, 3.8, 6.7, 2.2], [ 5.6, 3.0, 4.5, 1.5], [ 5.8, 2.7, 5.1, 1.9], [ 5.8, 2.8, 5.1, 2.4], [ 4.9, 3.1, 1.5, 0.1], [ 5.7, 3.8, 1.7, 0.3], [ 7.1, 3.0, 5.9, 2.1], [ 5.1, 3.7, 1.5, 0.4], [ 6.3, 2.7, 4.9, 1.8], [ 6.7, 3.0, 5.2, 2.3], [ 5.1, 2.5, 3.0, 1.1], [ 7.6, 3.0, 6.6, 2.1], [ 4.5, 2.3, 1.3, 0.3], [ 4.9, 3.0, 1.4, 0.2], [ 6.5, 2.8, 4.6, 1.5], [ 5.7, 4.4, 1.5, 0.4], [ 6.8, 3.0, 5.5, 2.1], [ 4.9, 2.5, 4.5, 1.7], [ 5.1, 3.8, 1.5, 0.3], [ 6.5, 3.0, 5.5, 1.8], [ 5.7, 2.6, 3.5, 1.0], [ 5.1, 3.8, 1.6, 0.2], [ 5.9, 3.0, 4.2, 1.5], [ 6.4, 3.2, 5.3, 2.3], [ 4.4, 3.0, 1.3, 0.2], [ 6.1, 2.8, 4.0, 1.3], [ 6.3, 2.3, 4.4, 1.3], [ 5.0, 2.3, 3.3, 1.0], [ 5.0, 3.6, 1.4, 0.2], [ 5.9, 3.2, 4.8, 1.8], [ 6.4, 2.8, 5.6, 2.2], [ 6.1, 2.6, 5.6, 1.4], [ 5.6, 2.5, 3.9, 1.1], [ 6.0, 2.7, 5.1, 1.6], [ 6.0, 3.0, 4.8, 1.8], [ 6.4, 2.8, 5.6, 2.1], [ 6.0, 2.9, 4.5, 1.5], [ 5.8, 2.6, 4.0, 1.2], [ 7.7, 3.0, 6.1, 2.3], [ 5.0, 3.3, 1.4, 0.2], [ 6.9, 3.2, 5.7, 2.3], [ 6.8, 2.8, 4.8, 1.4], [ 4.8, 3.1, 1.6, 0.2], [ 6.7, 3.1, 4.7, 1.5], [ 4.9, 3.1, 1.5, 0.1], [ 7.3, 2.9, 6.3, 1.8], [ 4.4, 3.2, 1.3, 0.2], [ 6.0, 2.2, 5.0, 1.5], [ 5.0, 3.0, 1.6, 0.2]]
  121. start = time.time()
  122. # 调用模糊C均值函数
  123. res_U = fuzzy(data , 3 , 2)
  124. # 计算准确率
  125. print ( "用时:{0}".format(time.time() - start))

https://blog.csdn.net/zwqhehe/article/details/75174918

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM