語義分割deeplabv3原理與流程梳理


deeplabv3是一種語義分割網絡,語義分割旨在對給定圖片的每一個像素點進行類別預測,在這里我們來梳理一下deeplabv3網絡的大致流程僅供參考,參考的算法實現地址為:https://github.com/fregu856/deeplabv3

1.網絡流程圖

2.網絡原理

算法使用的數據集是分割常用的cityscapes,在對數據集進行適當的預處理后,輸入網絡的是batchx3x256x256的圖片和batchx256x256的標簽,標簽的取值范圍是0-19,代表一共有20類。

1.首先對圖片進行特征提取,上圖使用的是resnet18網絡進行的特征提取,得到的是512x32x32的特征圖;

2.aspp網絡層對上一步得到的特征圖從5個分支分別進行各自的卷積提取操作,得到的都是256x32x32的特征圖,然后將它們拼接在一起,得到1280x32x32的特征圖,再經過兩次卷積得到20x32x32的特征圖;

3.最后對20x32x32的特征圖進行一次上采樣操作,得到20x256x256的特征圖,即最后我們需要的輸出;

4.loss直接對20x256x256的特征圖和256x256的標簽在每一個像素點進行交叉熵損失計算,考慮到類別不平衡問題,網絡還對每個類別的損失添加了相應的權重;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM