顏色聚類方法綜述

本文轉載自查看原文 2015-08-12 21:47 2247 Mean shift/ GMM)/ k-means/ 混合高斯模型 (Gaussian Mixture Models

　　畢業了，畢業論文也可以拿來曬曬了。覺的自己的論文涉及的知識點特別多，用到了很多圖像處理和機器學習方面的技術。第三章主要是講的顏色聚類的方法用來提取自然場景文本的候選連通域。（工作了時間不是很多，先把文章發上來，一周之內在好好拓展並整理).

一、顏色聚類的優點

　　分析自然場景文本的特點可得，在一個文本區域內部，一般一個字符內部的顏色變化不大。對於一幅24位RGB彩色圖，需要處理的顏色范圍達到。顯然，大范圍、高精度的顏色對於文本定位來說是沒有必要的，所以本章先用顏色聚類的方式來縮小顏色空間的范圍，增大各個顏色間的距離，以便於后續連通域提取。

　　如圖3. 2所示圖(a)是原圖，圖(b)是對應的RGB顏色空間三維散點圖，圖(c)是聚類后的圖像，圖(d)是圖(c)對應的散點圖，圖(a)中文本和背景的顏色混成一團難以分割，而圖(d)中可以明顯看到兩部分不同的顏色團的間隙，而這兩部分顏色分別對應的是文本和背景。目前顏色聚類的方法有很多，不同的方法適用於解決不同的問題。下面首先分析對比了目前主流的方法，然后從效果、時間、參數設定等各個方面考慮，選取適用於文本定位的方法。 (a) 原圖 (b) 圖(a)的顏色散布圖 (c) 圖(a)聚類后的圖 (d) 圖(c)的顏色散布圖圖3. 2聚類增大顏色距離示意圖。

二、顏色聚類方法

　　聚類是對數據的一種聚集，是將類似的數據聚成一類。聚類是一種無監督的分類方式，其優點在於不需要預先的訓練過程。目前比較常用的聚類方式有K-means，混合高斯模型 (Gaussian Mixture Models，GMM)，Mean shift等。

1. K-means算法

　　K-means是比較簡單又常用的聚類算法，k表示的是聚類中心的個數，每個類是由相應的聚類中心來表示。K-means算法包括四個步驟：

　　(1) 隨機選擇初始的聚類中心。

　　(2) 把每個目標分配給最近的中心（最近的度量指的是目標到中心的歐式距離）。

　　(3) 根據上一步聚好的類，重新計算聚類中心（所有點到上一步中心的平均值）。

　　(4) 重復(2)直到聚類中心不再發生變化。 K-means 的優點是簡單快速並且能夠很容易的實現，其缺點是K值需要人工設定，另外對於離群點太過敏感。

2. GMM算法

　　GMM用於聚類是基於這樣的假設即數據空間的數據是由多個高斯模型生成的。GMM解決的問題是根據數據空間的數據來估計多個高斯模型的參數，然后根據這些參數確定高斯模型^[33]。一旦高斯模型確定了，那么數據的聚類中心也就確定了。

假設數據空間中的數據符合高斯混合模型即：

　　　　　　　　　　　　　　　　　　　　　　(3.1)

其中是聚類中心的個數，代表的是高斯模型之間的權值並且符合。其中符合下式：

　　　　　　　　　　　　　　　　　　　　　　(3.2)

其中和分別代表的是第個聚類中心的均值和方差。那么需要根據數據來估計GMM的參數為。估計GMM的參數的算法為EM算法。EM算法分為兩步，在E步假設參數是已知的，根據最大似然來估計每個高斯模型的權值。在M步對E步得到的結果重新估計參數，然后不斷迭代地使用EM步驟，直到收斂。

GMM用於聚類的優點是最后得到的結果是數據屬於某個類的概率，其缺點是要先確定聚類中心的個數。

3. Mean shift算法

　　Mean shift的目標是根據給定的數據尋找概率密度的局部最大值。Mean-shift主要包括四個步驟：

　　(1) 隨機選擇若干個感興趣區域。

　　(2) 計算感興趣區域數據的中心。

　　(3) 移動區域到新的中心。

　　(4) 不斷計算直到收斂。

　　Mean shift的數學定義如下：

　　　　　　　　　　　　　　　　　　 (3.3)

其中，為核函數加權下的Mean shift代表的是均值向量移動的方向，是感興趣區域的中心，表示的是核函數，表示的是帶寬。在算法中，首先確定Mean shift的起點為感興趣區域的中心，然后計算Mean shift 向量的終點式3.3中的第一項。然后將感興趣區域的中心移動到向量的終點，重新計算Mean shift，當式(3.4)滿足時，結束移動，這時中心就收斂到數據空間中局部最大值。