deeplabv3是一種語義分割網絡,語義分割旨在對給定圖片的每一個像素點進行類別預測,在這里我們來梳理一下deeplabv3網絡的大致流程僅供參考,參考的算法實現地址為:https://github.com/fregu856/deeplabv3
1.網絡流程圖

2.網絡原理
算法使用的數據集是分割常用的cityscapes,在對數據集進行適當的預處理后,輸入網絡的是batchx3x256x256的圖片和batchx256x256的標簽,標簽的取值范圍是0-19,代表一共有20類。
1.首先對圖片進行特征提取,上圖使用的是resnet18網絡進行的特征提取,得到的是512x32x32的特征圖;
2.aspp網絡層對上一步得到的特征圖從5個分支分別進行各自的卷積提取操作,得到的都是256x32x32的特征圖,然后將它們拼接在一起,得到1280x32x32的特征圖,再經過兩次卷積得到20x32x32的特征圖;
3.最后對20x32x32的特征圖進行一次上采樣操作,得到20x256x256的特征圖,即最后我們需要的輸出;
4.loss直接對20x256x256的特征圖和256x256的標簽在每一個像素點進行交叉熵損失計算,考慮到類別不平衡問題,網絡還對每個類別的損失添加了相應的權重;