Coursera在線學習---第八節.K-means聚類算法與主成分分析(PCA)

本文轉載自查看原文 2017-02-21 17:34 2479 機器學習

一、K-means聚類中心初始化問題。

　　1）隨機初始化各個簇類的中心，進行迭代，直到收斂，並計算代價函數J。

　　　如果k=2~10，可以進行上述步驟100次，並分別計算代價函數J，選取J值最小的一種聚類情況，能夠得到一個相對不錯的局部最優解。（因為k值較小情況下，不同的隨機中心，聚類結果不同）

　　2）如果k值很大，則多次隨機意義不大，隨機一次進行聚類即可。

二、如何選擇聚類數目K?

　　　肘部法則是一個方法，但效果一般不明顯。通常來講，並沒有太絕對的方法，主要靠人工選擇，以及人為的洞察力。

三、利用k-means進行圖像壓縮原理。

　　比如一個圖像像素為10X10=100個像素點，原始圖像中每個像素由RGB組成，R、G、B各占8位，數值為0~255，表示顏色密度，共24位，可以表示成千上萬種顏色。所有，原始像素共占100x24=2400bits。

　　采用K-means壓縮，利用聚類算法聚類出16個最有代表性的顏色，每個顏色還是24位。16個最具代表性的顏色用4位表示就行了，這樣壓縮后就變為16X24+100X4=784bits，大大壓縮了空間。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　主成份分析PCA

一、用途

　　1）數據壓縮

　　2）數據降維，加快算法運行。(數據降維后，對算法本身幾乎沒影響)

　　3）可視化，一般是將多維數據降到2維或3維，因為軟件方便畫出2D與3D圖形。（太高維度數據，軟件也幾乎無法可視化）

　　注：利用PCA降低數據維度，以防止過擬合，該方法不可取，看似有道理其實不好。正則化方法防止過擬合最好。總之，PCA降維加速機器學習算法是有效的，防止過擬合效果比較差。

二、計算過程與選擇主成分？

三、什么時候用PCA?

　　在項目初始期，不要一開始就用PCA，而應該首先用原始數據構建模型。只有在發現用原始數據模型收斂非常慢，非常占用內存，而確實需要PCA降維加快學習算的時候，再嘗試使用PCA。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在Python中使用K-Means聚類和PCA主成分分析進行圖像壓縮 coursera機器學習-聚類，降維，主成分分析 Python的主成分分析PCA算法主成分分析算法(PCA) k-means聚類算法實例分析主成分分析（PCA）主成分分析 —PCA 主成分分析-PCA PCA——主成分分析 PCA（主成分分析）