基於spark Mllib(ML)聚類實戰

本文轉載自查看原文 2016-08-08 18:05 6738 mllib/ spark/ kmeans/ GMM/ LDA/ ML

寫在前面的話：由於spark2.0.0之后ML中才包括LDA,GaussianMixture 模型，這里k-means用的是ML模塊做測試，LDA,GaussianMixture 則用的是MLlib模塊

數據資料下載網站，大力推薦！！！

http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

1.Kmeans

大致思想就是把數據分為多個堆，每個堆就是一類。每個堆都有一個聚類中心（學習的結果就是獲得這k個聚類中心），這個中心就是這個類中所有數據的均值，而這個堆中所有的點到該類的聚類中心都小於到其他類的聚類中心，分類的過程就是將未知數據對這k個聚類中心進行比較的過程。

spark kmeans 算法調用數據演練

2.GMM

另外一種比較流行的聚類方法 Gaussian Mixture Model

大致思想就是指對樣本的概率密度分布進行估計，而估計的模型是幾個高斯模型加權之和（具體是幾個要在模型訓練前建立好）。每個高斯模型就代表了一個類（一個

Cluster）。對樣本中的數據分別在幾個高斯模型上投影，就會分別得到在各個類上的概率。然后我們可以選取概率最大的類所為判決結果。

spark GMM 算法調用數據測試：

3.LDA

最后總結一下，用GMM的優點是投影后樣本點不是得到一個確定的分類標記，而是得到每個類的概率，這是一個重要信息。GMM每一步迭代的計算量比較大，大於

k-means。GMM的求解辦法基於EM算法，因此有可能陷入局部極值，這和初始值的選取十分相關了。GMM不僅可以用在聚類上，也可以用在概率密度估計上。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark中ml和mllib的區別 Spark機器學習中ml和mllib中矩陣、向量 Spark MLlib中KMeans聚類算法的解析和應用 Spark ML聚類分析之k-means|| Spark排序算法系列之（MLLib、ML）LR使用方式介紹 Spark MLBase分布式機器學習系統入門：以MLlib實現Kmeans聚類算法 Spark入門實戰系列--8.Spark MLlib（上）--機器學習及SparkMLlib簡介 spark Mllib SVM實例 python spark MLlib Spark MLlib回歸算法LinearRegression