Coursera在線學習---第八節.K-means聚類算法與主成分分析(PCA)


一、K-means聚類中心初始化問題。

  1)隨機初始化各個簇類的中心,進行迭代,直到收斂,並計算代價函數J。

   如果k=2~10,可以進行上述步驟100次,並分別計算代價函數J,選取J值最小的一種聚類情況,能夠得到一個相對不錯的局部最優解。(因為k值較小情況下,不同的隨機中心,聚類結果不同)

  2)如果k值很大,則多次隨機意義不大,隨機一次進行聚類即可。

 

二、如何選擇聚類數目K?

   肘部法則是一個方法,但效果一般不明顯。通常來講,並沒有太絕對的方法,主要靠人工選擇,以及人為的洞察力。

 

三、利用k-means進行圖像壓縮原理。

  比如一個圖像像素為10X10=100個像素點,原始圖像中每個像素由RGB組成,R、G、B各占8位,數值為0~255,表示顏色密度,共24位,可以表示成千上萬種顏色。所有,原始像素共占100x24=2400bits。

  采用K-means壓縮,利用聚類算法聚類出16個最有代表性的顏色,每個顏色還是24位。16個最具代表性的顏色用4位表示就行了,這樣壓縮后就變為16X24+100X4=784bits,大大壓縮了空間。

 

                                主成份分析PCA

 一、用途

  1)數據壓縮

  2)數據降維,加快算法運行。(數據降維后,對算法本身幾乎沒影響)

  3)可視化,一般是將多維數據降到2維或3維,因為軟件方便畫出2D與3D圖形。(太高維度數據,軟件也幾乎無法可視化)

  注:利用PCA降低數據維度,以防止過擬合,該方法不可取,看似有道理其實不好。正則化方法防止過擬合最好。總之,PCA降維加速機器學習算法是有效的,防止過擬合效果比較差。

 

二、計算過程與選擇主成分?

三、什么時候用PCA?

  在項目初始期,不要一開始就用PCA,而應該首先用原始數據構建模型。只有在發現用原始數據模型收斂非常慢,非常占用內存,而確實需要PCA降維加快學習算的時候,再嘗試使用PCA。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM