1、語義分割
1.1 DeepLab全卷積網絡
①基本結構
1)優化后的DCNN+傳統的CRF圖模型
②新的上采樣卷積方案
1)帶孔(hole)結構的膨脹卷積(Atrous/Dilated convolution)
③多尺度圖片表達
1)Atrous空間金字塔池化(Atrous Spatial Pyramid Pooling)
④邊界分割的優化
1)使用全連接條件隨機場CRF進行迭代優化
1.1.1 結構
①模塊1:DCNN輸出粗糙的分割結果
②模塊2:全連接CRF精化分割結果
1.1.2 孔(Hole)算法
①解決原始FCN網絡的輸出低分辨率問題(100padding)
②降低池化層的降采樣倍數
1)VGG16網絡Pool4和Pool5層的步長:2->1
2)減小降采樣倍數:32->8
3)后續卷積核的感受野(Field-Of-View)會受影響(變小)
4)這些卷積核無法用來fine-tune
③更改卷積核的結構->加孔(Hole)
1)無上采樣功能
2)恢復感受野,可以用來fine-tune
3)保證了網絡最終的高分辨率輸出(僅8倍降采樣)
④卷積核結構
1)尺寸不變(3x3),元素間距變大(1->2)
2)步長不變(1)
⑤優勢
1)參數數量不變
2)計算量不變
3)高分辨輸出
⑥采用層
1)conv5:孔尺寸2
2)conv6:孔尺寸4
1.1.3 膨脹卷積(Atrous/Dilated convolution)
①孔算法的正式名稱
②與降低池化層步長配對使用,以取代上采樣反卷積
③孔尺寸->Rate
1)Rate越大,感受野越大
④膨脹卷積效果
1)稀疏特征提取:x2降采樣->7x7卷積->x2上采樣
2)稠密特征提取:7x7膨脹卷積
⑤優勢
1)參數&計算量一樣
2)靈活控制分辨率
1.1.4 Atrous空間金字塔池化(Atrous Spatial Pyramid Pooling)
①不同感受野(rate)捕捉不同尺度上的特征
②在conv6層引入4個並行膨脹卷積
1)Rate:6,12,18,24
③4個並行膨脹卷積
1)感受野:13x13,25x25,37x37,49x49
⑤Fc6->Fc7->Fc8
1)深度:4096->2014->類別數量
2)卷積核:3x3->1x1->1x1
⑥融合:概率相加
1.1.5 全連接CRF
①作用:通過迭代精化分割結果(恢復精確邊界)
②輸入
1)首次:FCN網絡輸出結果的8倍雙線性插值
2)非首次:上一輪迭代結果
③能量計算基於圖片RGB像素值
1.1.6 結果
①第一行:飛機類別的分值(softmax之前)
②第二行:飛機類別的概率值(softmax之后)
1.1.7 語義分割數據集
①Pascal VOC-2012
1)20個物體類別
人類
動物(鳥、貓、牛、狗、馬、羊)
交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車)
室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)
2)像素級標簽9993張圖片
②MSCOCO
1)80個類別
2)COCO-stuff擴展集:172類別
Object:80
Stuff:91
Unknown:1
3)主要用於:
實例級別的分割(Instance-level)
圖片描述(Image Captioning)
4)http://mscoco.org/
③Cityscapes
1)30個類別
2)標注:
5000張像素標注(pixel level)
20000張多邊形標注(instance level)
3)輔助/自動駕駛中的語義場景理解
4)采集於50個城市
5)https://www.cityscapes-dataset.com