原文 :http://tecdat.cn/?p=3433
本文我們討論期望最大化理論,應用和評估基於期望最大化的聚類。
軟件包
數據
我們將使用mclust軟件包附帶的“糖尿病”數據。
期望最大化(EM)
期望最大化(EM)算法是用於找到最大似然的或在統計模型參數,其中該模型依賴於未觀察到的潛變量最大后驗(MAP)估計的迭代方法。期望最大化(EM)可能是無監督學習最常用的算法。
似然函數
似然函數找到給定數據的最佳模型。
期望最大化(EM)算法
假設我們翻轉硬幣並得到以下內容 - 0,1,1,0,0,1,1,0,0,1。我們可以選擇伯努利分布
或者,如果我們有以厘米為單位的人的身高(男性和女性)的數據。高度遵循正常的分布,但男性(平均)比女性高,因此這表明兩個高斯分布的混合模型。
貝葉斯信息准則(BIC)
以糖尿病數據為例
EM的繪圖命令會生成以下四個繪圖:
BIC值用於選擇簇的數量
聚類圖
分類不確定性的圖表
簇的軌道圖