數據挖掘——學習筆記（聚類算法分類）

本文轉載自查看原文 2012-04-09 09:47 5843

聚類分析計算方法主要有如下幾種： 1. 划分法(partitioning methods) 　　給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。而且這K個分組滿足下列條件：（1）每一個分組至少包含一個數據紀錄；（2）每一個數據紀錄屬於且僅屬於一個分組（注意：這個要求在某些模糊聚類算法中可以放寬）；對於給定的K，算法首先給出一個初始的分組方法，以后通過反復迭代的方法改變分組，使得每一次改進之后的分組方案都較前一次好，而所謂好的標准就是：同一分組中的記錄越近越好，而不同分組中的紀錄越遠越好。使用這個基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法； 2. 層次法(hierarchical methods) 　　這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合並成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等； 3. 基於密度的方法(density-based methods) 　　基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的算法只能發現“類圓形”的聚類的缺點。這個方法的指導思想就是，只要一個區域中的點的密度大過某個閥值，就把它加到與之相近的聚類中去。代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等； 4. 基於網格的方法(grid-based methods) 　　這種方法首先將數據空間划分成為有限個單元（cell）的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快，通常這是與目標數據庫中記錄的個數無關的，它只與把數據空間分為多少個單元有關。代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法； 5. 基於模型的方法(model-based methods) 　　基於模型的方法給每一個聚類假定一個模型，然后去尋找能個很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是：目標數據集是由一系列的概率分布所決定的。通常有兩種嘗試方向：統計的方案和神經網絡的方案。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘中分類和聚類的區別系統聚類法 - 數據挖掘算法（4）數據挖掘中聚類算法數據挖掘學習筆記：分類器（二）數據挖掘——學習筆記（系統聚類法和K均值聚類法）數據挖掘系列（7）分類算法評價數據挖掘的常用分類算法大數據的常用算法（分類、回歸分析、聚類、關聯規則、神經網絡方法、web數據挖掘）大數據的常用算法（分類、回歸分析、聚類、關聯規則、神經網絡方法、web數據挖掘）《數據挖掘導論》實驗課——實驗七、數據挖掘之K-means聚類算法

數據挖掘——學習筆記 （聚類算法分類）

免責聲明！

數據挖掘——學習筆記（聚類算法分類）