解決的問題
該論文探討了前人提出的卷積神經網絡CNN
和超像素方法相結合進行區域級圖像分類的優缺點。指出該方法與按像素分類相比,基於區域的算法可以探索像素之間的空間關系,從而可以減少某些像素級別的分類錯誤。但是,該方法沒有考慮超像素區域之間的空間約束,這可能會限制這些算法的性能。因此該論文提出了基於RCC-MRF(區域分類置信度的馬爾可夫隨機場)的區域級SAR圖像分類算法,該算法利用了超像素區域之間的深度特征和空間約束,可以減少某些區域級別的分類錯誤。
卷積神經網絡:通常應用於機器視覺領域,進行圖像的識別。其基本組件有輸入層,卷積層,池化層,完全連接層和分類層。如下圖所示:
- 卷積層所做的,本質上是一個具有核的圖像卷積,得到特征圖。
核實際上是神經網絡需要學習的權重。權重是像素點屬於哪個類別的占比。
- 池化層
池化的目的是減少輸入的空間尺寸。以最大池化為例,使用 2×2 大小過濾器,跨距為 2 的MAX
池化. 對於𝑛×𝑚
的輸入,通過將輸入中的每個2×2
區域替換為單個值(該區域中4
個值的最大值),得到\(\frac{n}{2}×\frac{m}{2}\)的結果. 下圖表示池化過程:
- 完全連接層
在完全連接的層中,將特征圖重塑為特征向量,然后將特征向量連接起來以形成單個特征向量。
超像素:超像素最直觀的解釋,便是把一些具有相似特性的像素“聚合”起來,形成一個更具有代表性的大“元素”。而這個新的元素,將作為其他圖像處理算法的基本單位。如下圖所示:
MRF(馬爾科夫隨機場):有向圖方法,便於分析因果關系,將圖像模擬成一個隨機變量組成的網格。其中的每一個變量具有明確的對由其自身之外的隨機變量組成的近鄰的依賴性(馬爾科夫性)。
RCC-MRF:RCC-MRF
是一種改進的區域級MRF
。區域級MRF
是在區域上定義的MRF
模型。區域應表示為區域鄰接圖RAG
。在RAG
中,節點代表超像素區域,邊緣代表區域之間邊界的存在。通常通過過度分割獲得超像素,並且將這些超像素視為區域。區域級MRF
在RAG上定義,以類似於像素的方式對區域的行為進行建模。令\(R_i\)表示RAG
中的頂點i
,而\(x_i\)表示屬於\(R_i\)的所有位點的標簽。 RCC-MRF
對\(R_i\)的能量函數可定義為:
\(E=(E_{GMM}+E_{RCC})+\beta E_S\)
\(\begin{equation} E_{G M M}=\sum_{R_{i} \in S} V_{G M M}^{R_{i}} ; \quad V_{G M M}=\sum_{p \in R_{i}}\left\{\frac{1}{2} \ln \left(2 \pi \sigma_{x_{i}}^{2}\right)+\frac{\left(y_{p}-\mu_{x_{i}}\right)^{2}}{2 \sigma_{x_{i}}^{2}}\right\} \end{equation}\)
\(\begin{equation} E_{R C C}=\sum_{R_{i} \in S} V_{R C C}^{R_{i}} ; \quad V_{R C C}=-\ln \left\{\frac{1}{N} \sum_{p \in R_{i}} p\left(x_{p}=l | F_{p}, W_{C N N}\right)\right\} \end{equation}\)
\(\begin{equation} E_{S}=\sum_{R_{i} \in S} V_{S}^{R_{i}} ; \quad V_{S}\left(x_{i}, x_{j}\right)=\left\{\begin{array}{l} \beta, x_{i}=x_{j} \\ 0, x_{i} \neq x_{j} \end{array}\right. \end{equation}\)
由以上公式可知,RCC-MRF
模型是在MRF
模型原來的能量函數中加了一項一階能量函數\(E_{RCC}.\)
\(E_{RCC}\)是由像素的概率分布構造的,用於查找某個區域最有可能屬於的類別.\(p(x_{p}=l | F_{p}, W_{C N N})\)表示\(R_i\)屬於類別l
的置信度,因此其值越大,\(R_i\)屬於l
的可信度就越高.
由最后一個公式可知區域標簽應與相鄰區域的標簽一致.
解決方法流程
- 進行
CNN
訓練。訓練后得到所有像素的標簽和類別置信度 - 應用
SLIC
(簡單線性迭代聚類)算法獲得過度分割的超像素區域 - 對於每個區域,采用一種投票策略,即將最主要的標簽確定為該區域的標簽
- 初始化區域標簽后,將構建RCC-MRF並將其應用於區域級分類
-
通過最小化一元能量函數\(E_{RCC}\)值,確定區域最可能的類別,該項可以糾正區域初始標簽中的一些錯誤分類,如圖所示:
-
利用二元能量函數檢驗判定的區域類別
實驗數據
本文實驗數據采用的是一個擁有single look speckle噪聲的合成SAR影像和兩幅真的SAR影像。
合成SAR影像有四種紋理,容易導致錯誤分類,剛好可以用來評價該算法的准確性。合成SAR影像大小是486×486,里面包含八種類別。
兩張真實SAR影像采用的是Radarsat-2衛星影像,一張是舊金山灣區的,大小為1010 × 1160;另一張是荷蘭Flevoland省的,大小為1000 × 1400.