語義分割Semantic Segmentation研究綜述

本文轉載自查看原文 2019-02-18 09:49 4465 CV論文閱讀

語義分割和實例分割概念

語義分割：對圖像中的每個像素都划分出對應的類別，實現像素級別的分類。

實例分割：目標是進行像素級別的分類，而且在具體類別的基礎上區別不同的實例。

輸入：一張原始的RGB圖像

輸出：帶有各像素類別標簽的與輸入同分辨率的分割圖像

對預測的分類目標采用one-hot編碼，為每個分類類別創建一個輸出的channel。

將分割圖相加到原始圖像上的效果。

在經典的網絡中，需要經過多層卷積和池化進行提取特征工作，從而找到分類目標，這個過程會使圖像尺寸逐漸減小。需要將分類后的特征圖還原到原圖尺寸。

通常的做法是編碼和解碼網絡結構。

卷積核池化操作可以看圖像編碼的過程，也就是下采樣過程。

解碼理解為編碼的逆運算，對輸出的特征圖不斷上采樣，逐漸得到一個與原始圖像同分辨率的分割圖。

卷積動圖

最大池化和最大池化的示意圖（池化上采樣是通過將單個值分配更高的分辨率來達到擴充的目的）

反卷積（轉置卷積）

Dilated convolution(空洞卷積)

分類所使用的網絡通常會在最后連接全連接層，它會將原來二維的矩陣(圖片)壓縮成一維的，從而丟失了空間信息，最后訓練輸出一個標量，這就是我們的分類標簽。

語義分割的輸出是個分割圖，至少是二維的。通常是一個類別為一個通道。

需要得到一個與原圖像size相同的分割圖，需要對最后一層進行上采樣。

由於直接將全卷積的結果上采樣后的結果很粗糙。采用跳躍結構，將不同池化層的結果進行上采樣，然后結合這些結果來優化輸出。（出發點：由於池化層會丟失信息，將不同池化層結果上采樣，從而彌補部分信息）

u-net作為FCN的改進，通過擴大網絡解碼器容量來改進了全卷積網絡結構，並給編碼和解碼模塊添加了收縮路徑（contracting path），從而實現更精准的像素邊界定位。

融合之前要crop到對應的層相同尺寸。（思考：融合操作是不是對應通道的相加，具體需要看論文和代碼。有沒有更合理的特征融合方法）

v-net 可以理解為 3D 版本的 u-net ，適用於三維結構的醫學影像分割。v-net 能夠實現 3D 圖像端到端的圖像語義分割，加了一些像殘差學習一樣的trick來進行網絡改進，總體結構上與 u-net 差異不大。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。