R語言代寫:EM算法和高斯混合模型的實現


原文 :http://tecdat.cn/?p=3433

 

本文我們討論期望最大化理論,應用和評估基於期望最大化的聚類。

軟件包

install.packages("mclust");

require(mclust)

## Loading required package: mclust

## Package 'mclust' version 5.1

## Type 'citation("mclust")' for citing this R package in publications.

 

數據

我們將使用mclust軟件包附帶的“糖尿病”數據。

data(diabetes)

summary(diabetes)

## class glucose insulin sspg## Chemical:36 Min. : 70 Min. : 45.0 Min. : 10.0## Normal :76 1st Qu.: 90 1st Qu.: 352.0 1st Qu.:118.0## Overt :33 Median : 97 Median : 403.0 Median :156.0## Mean :122 Mean : 540.8 Mean :186.1## 3rd Qu.:112 3rd Qu.: 558.0 3rd Qu.:221.0## Max. :353 Max. :1568.0 Max. :748.0

 

期望最大化(EM)

期望最大化(EM)算法是用於找到最大似然的或在統計模型參數,其中該模型依賴於未觀察到的潛變量最大后驗(MAP)估計的迭代方法。期望最大化(EM)可能是無監督學習最常用的算法。

似然函數

似然函數找到給定數據的最佳模型。

期望最大化(EM)算法

假設我們翻轉硬幣並得到以下內容 - 0,1,1,0,0,1,1,0,0,1。我們可以選擇伯努利分布

或者,如果我們有以厘米為單位的人的身高(男性和女性)的數據。高度遵循正常的分布,但男性(平均)比女性高,因此這表明兩個高斯分布的混合模型。

貝葉斯信息准則(BIC)

以糖尿病數據為例

EM集群與糖尿病數據使用mclust。

log.likelihood:這是BIC值的對數似然值

n:這是X點的數量

df:這是自由度

BIC:這是貝葉斯信息標准; 低是好的

ICL:綜合完整X可能性 - BIC的分類版本。

clPairs(X,class.d)

 

EM的繪圖命令會生成以下四個繪圖:

BIC值用於選擇簇的數量

聚類圖

分類不確定性的圖表

簇的軌道圖

 

 

 

如果您有任何疑問,請在下面發表評論。   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM