掃盲記-第三篇--圖像分割


學習內容來源於網絡

圖像分割

圖像分割是什么?如果下學術定義,就是把圖像分割成想要的語義上相同的若干子區域,看上面的自動駕駛的分割任務,路是路,車是車,樹是樹。這些子區域,組成圖像的完備子集,相互之間不重疊。圖像分割可以被看作是一個逐像素的圖像分類問題。

 

傳統辦法:

     1.邊緣與閾值法

簡單的邊緣檢測曾被用於圖像分割,但需要做復雜后處理。閾值法的基本思想是基於圖像的灰度特征來計算一個或多個灰度閾值,並將圖像中每個像素的灰度值與閾值相比較。最廣泛使用也最具有代表性質就是OTSU方法,它是用於灰度圖像分割的方法,核心思想是使類間方差最大化。OTSU方法非常簡單,要求被分割的物體顏色紋理比較緊湊,類內方差小,只適合一些文本圖像的處理,比如車牌、指紋等。

     2. 區域增長,分裂

對於類內方差較大的目標OTSU方法分割結果不理想,OTSU方法沒有利用好像素的空間信息,導致分割結果極其容易受噪聲干擾,經常出現斷裂的邊緣,需要后處理。區域生長法出它通過一些種子點,再加上相似性准則來不斷擴充區域直至達到類別的邊界,使得分割的結果具有很強的連續性。區域分裂則是反過程。區域生長法的代表是分水嶺算法分水嶺算法對於弱邊緣有不錯的響應,因此常被用於材料圖像的分割,以及產生超像素用於提高其他方法的分割效率。超像素歸為圖像分割的方法,SLIC,Meanshift等都是非常經典的方法配合其他方法一起使用,往往產生驚人的效果。

 

     3. 圖割

以graphcut為代表的圖割方法,是傳統圖像分割里面魯棒性最好的方法,graphcut是一種概率無向圖模型(Probabilistic undirected graphical model),又稱之為Markov random field-MRF馬爾可夫隨機場。

Graphcut的基本思路,首先建立一張圖,其中以圖像像素或者超像素作為圖像頂點,然后優化的目標是要找到一個切割,使得各個子圖不相連從而實現分割,前提是移除邊和權重最小。

隨后圖割方法從MRF發展到CRF,即條件隨機場。CRF通常包含兩個優化目標,一是區域的相似度,被稱為區域能量項,即piecewise能量;另一個是被切斷邊的相似度,被稱為邊緣能量項,即pairwise能量。CRF追求區域能量項的最大化以及邊緣能量的最小化,即區域內部越相似越好,區域間相似度越低越好。圖割方法很通用,對於紋理比較復雜的圖像分割效果很不錯。圖割方法缺點,時間復雜度和空間復雜度較高,因此通常使用超像素進行加速計算。

 

Grabcut是graphcut的迭代版本。Grabcut它的基本思路:使用混合高斯模型(Gaussian Mixture Model,GMM)替代了graphcut基於灰度的模型,初始的混合高斯模型的構建,通過用戶交互來指定,只需要指定確定性的背景像素區域即可,通常畫一個框來指定。CRF與MRF的區別可以參考【Discriminative fields for modeling spatial dependencies in natural images】,圖割方法很實用,是圖像分割領域中的研究者必須掌握的技能。

     4. 輪廓模型

輪廓模型的基本思想是使用連續曲線來表達目標輪廓,並定義一個能量泛函,其自變量為曲線,將分割過程轉變為求解能量泛函的最小值的過程。數值實現可通過求解函數對應的歐拉(Euler-Lagrange)方程來實現。輪廓模型包括以snake模型為代表的參數活動輪廓模型和以水平集方法為代表的幾何活動輪廓模型當能量達到最小時的曲線位置就處於正確的目標輪廓

基於輪廓模型分割方法具有以下幾個顯著的特點:

(1)    由於能量泛函是在連續狀態下實現,所以最終得到的圖像輪廓可以達到較高的精度;

(2)    通過約束目標輪廓為光滑,同時融入其它關於目標形狀的先驗信息,算法可以具有較強的魯棒性;

(3)    使用光滑的閉合曲線表示物體的輪廓,可獲取完整的輪廓,從而避免傳統圖像分割方法中的預/后處理過程。

缺點就是比較敏感,容易陷入局部極值

深度學習辦法:

第一篇采用深度學習方法來做圖像分割的是FCN【Fully Convolutional Networks for Semantic Segmentation】,分類任務到了最后,圖像被表征成了一個一維的向量,而分割任務則需要恢復一張與原圖大小相等的圖,所以全連接自然是不行的。

 

在從最小分辨率的feature map上采樣的過程中,融合了卷積過程中同一分辨率大小的特征圖,這種將網絡淺層深層信息融合的思想是分割網絡的必備。一種對稱和優美的網絡結構【Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding】:

 

基於FCN的改進的許多方法采用了不同的上采樣辦法,帶孔卷積增加感受野的方法、圖片與特征的多尺度信息融合、增加CRF等后處理的方法等。但萬變不離其宗,最終分割結果的好壞往往取決於網絡的表征能力、問題的簡化、好的標注數據等。

 

分割不僅僅是分類問題

前文所述的,都是將分割當成一個分類問題來對待的,將每個像素要被歸為明確的類別。然而分割的終極目標不只是歸類,比如為了做背景替換的摳圖(image matting。對於分類問題,產生的分割背景和前景不能夠完美融合,因此需要一種帶透明度通道的分割或者先分割再利用泊松融合等技術進行邊緣融合的解決辦法,這就是一個image matting問題。

image matting問題可以用一個簡單的數學表達式表達:

I = aF + (1-a)B

其中F是前景,B是背景,a是透明度,一張圖可以看作在透明度圖像的控制下,前景和背景的線性融合。解這個問題有點病態,對於三通道的RGB圖像,只有3個方程,卻需要解出6個變量。所以像closed matting等方法都要做局部區域顏色不變的約束才能求出解析解。

隨着技術的進步image matting問題從傳統方法發展到了深度學習,對主流方法進行了比較請參見:http://www.alphamatting.com/index.html

一種end to end的方案deep image matting

 

譜分割(spectral segmentation),Laplacian矩陣,soft transitions與layers,SLIC等。

譜分割與laplacian矩陣是graphcut的歸一化版本Normalized Cut的核心,而soft transitions與layers是photoshop最核心的思想,SLIC則是用於減少計算量的超像素方法。將這些方法和加上深度學習相互融合使用,就會圖像分割效果極好的圖像分割效果。【Semantic Soft Segmentation】

 

學習內容來源  公眾號:有三AI(微信號:yanyousan_ai) https://mp.weixin.qq.com/s/zZ-i54_wqzVQxTCFABNIMQ

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM