sklearn GMM模型介紹

本文轉載自查看原文 2018-08-10 16:55 8215 數據科學

參考 SKlearn 庫 EM 算法混合高斯模型參數說明及代碼實現和 sklearn.mixture.GaussianMixture

記錄下常用的參數，以及函數。

參數說明

class sklearn.mixture.GaussianMixture(n_components=1, covariance_type='full', tol=0.001, reg_covar=1e-06, max_iter=100, 
n_init=1, init_params='kmeans', weights_init=None, means_init=None, precisions_init=None, random_state=None, warm_start=False,
 verbose=0, verbose_interval=10)

1. n_components: 混合高斯模型個數，默認為 1
2. covariance_type: 協方差類型，包括 {‘full’,‘tied’, ‘diag’, ‘spherical’} 四種，full 指每個分量有各自不同的標准協方差矩陣，完全協方差矩陣（元素都不為零）， tied 指所有分量有相同的標准協方差矩陣（HMM 會用到），diag 指每個分量有各自不同對角協方差矩陣（非對角為零，對角不為零）， spherical 指每個分量有各自不同的簡單協方差矩陣，球面協方差矩陣（非對角為零，對角完全相同，球面特性），默認‘full’ 完全協方差矩陣

3. tol：EM 迭代停止閾值，默認為 1e-3.
4. reg_covar: 協方差對角非負正則化，保證協方差矩陣均為正，默認為 0
5. max_iter: 最大迭代次數，默認 100
6. n_init: 初始化次數，用於產生最佳初始參數，默認為 1
7. init_params: {‘kmeans’, ‘random’}, defaults to ‘kmeans’. 初始化參數實現方式，默認用 kmeans 實現，也可以選擇隨機產生
8. weights_init: 各組成模型的先驗權重，可以自己設，默認按照 7 產生
9. means_init: 初始化均值，同 8
10. precisions_init: 初始化精確度（模型個數，特征個數），默認按照 7 實現
11. random_state : 隨機數發生器
12. warm_start : 若為 True，則 fit（）調用會以上一次 fit（）的結果作為初始化參數，適合相同問題多次 fit 的情況，能加速收斂，默認為 False。
13. verbose : 使能迭代信息顯示，默認為 0，可以為 1 或者大於 1（顯示的信息不同）
14. verbose_interval : 與 13 掛鈎，若使能迭代信息顯示，設置多少次迭代后顯示信息，默認 10 次。

函數：

aic(X) Akaike information criterion for the current model on the input X. 　　　　　　　　輸入 X 上當前模型的 aic（X）Akaike 信息標准。
bic(X) Bayesian information criterion for the current model on the input X.　　　　　　　　輸入 X 上當前模型的 bic（X）貝葉斯信息准則。
fit(X[, y]) Estimate model parameters with the EM algorithm.　　　　　　　　　　　　　　fit（X [，y]）使用 EM 算法估算模型參數。
get_params([deep]) Get parameters for this estimator.　　　　　　　　　　　　　　　　get_params（[deep]）獲取此估算器的參數。
predict(X) Predict the labels for the data samples in X using trained model.　　　　　　　　預測（X）使用訓練模型預測 X 中數據樣本的標簽。
predict_proba(X) Predict posterior probability of each component given the data.　　　　　　predict_proba（X）預測給定數據的每個組件的后驗概率。
sample([n_samples]) Generate random samples from the fitted Gaussian distribution.　　　　sample（[n_samples]）從擬合的高斯分布生成隨機樣本。
score(X[, y]) Compute the per-sample average log-likelihood of the given data X.　　　　得分（X [，y]）計算給定數據 X 的每樣本平均對數似然。
score_samples(X) Compute the weighted log probabilities for each sample.　　　　　　score_samples（X）計算每個樣本的加權對數概率。
set_params(**params) Set the parameters of this estimator.　　　　　　　　　　　　　　set_params（** params）設置此估算器的參數。

最主要的步驟是fit，然后內部在用em算法進行迭代求參數了。

score_samples(x) 返回加權對數概率，所以指數形式，就是gmm模型給出的概率。

predict_proba() 給出每個gmm的子高斯模型的概率，類似這種形式：

[[1.23749644e-06 1.95769562e-15 9.99998763e-01 5.29319585e-14]
 [2.22219085e-35 1.06858732e-17 5.83110038e-16 1.00000000e+00]
 [1.35866699e-42 1.85132861e-23 6.24590778e-19 1.00000000e+00]...

這是個4個組分的gmm，已經紅色標注了，這是概率最高的，屬於對應組分的概率最大

predict () 預測是哪個組分的，

用上面的例子，得到的結果就是： [2 3 3 ...] 因為是4分類，0123

常用的也就這些了，sklearn的框架要比自己寫的好用很多，雖然能夠推導出公式，但是代碼不一定寫的出來。。。

最后分享一個關於協方差類型的官網例子： GMM covariances

以此為模板，我們只需要把數據的輸入形式搞對應了，就可以做很多事情。

值得一提的是，gmm需要初始化，我們上一篇學習的kmeans就可以拿來做gmm的初始化，他的 k個質心坐標，可以用來作為gmm k個組分的初始均值。這個在我們下一篇實戰中細說。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 EM算法和高斯混合模型GMM介紹 Python-sklearn模型介紹高斯混合模型(GMM) 高斯混合模型（GMM） OpenCV——GMM混合高斯模型 kaldi GMM模型解碼指令 gmm-latgen-faster詳解概率圖：高斯混合模型（GMM） AI大語音（六）——混合高斯模型（GMM）混合高斯模型（Gaussian mixture model, GMM） kaldi基於GMM的單音素模型訓練部分