論文筆記(6):Weakly-and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation


這篇文章的主要貢獻點在於:

1.實驗證明僅僅利用圖像整體的弱標簽很難訓練出很好的分割模型;

2.可以利用bounding box來進行訓練,並且得到了較好的結果,這樣可以代替用pixel-level訓練中的ground truth;

3.當我們用少量的pixel-level annotations和大量的圖像整體的弱標簽來進行半監督學習時,其訓練效果可和全部使用pixel-level annotations差不多;

4.利用額外的強弱標簽可以進一步提高效果。

這是用image-level labels來做的,通過圖像的標簽對每個像素進行處理,如果該像素的用CNN得到的score map中有該圖像標簽,則對m位置處的CNN輸出做調整並選取其中的最大值作為最新標簽,然后用M步中的批量梯度下降法得到新的CNN參數(這個步驟和之前用pixel-level做是一樣的),不再需要人工來做大量的工作進行像素級的標定。但是這種方法不太准確,所以用像素級的一部分標簽加上圖像的標簽來進行訓練。

 

這篇文章在DeepLab的基礎上進一步研究了使用bounding box和image-level labels作為標記的訓練數據。使用了期望值最大化算法(EM)來估計未標記的像素的類別和CNN的參數。

對於image-level標記的數據,我們可以觀測到圖像的像素值x和圖像級別的標記z,但是不知道每個像素的標號y,因此把 y當做隱變量。使用如下的概率圖模式:


P(x,y,z;\theta)=P(x)(\prod_{m=1}^MP(y_m|x;\theta))P(z|y)

使用EM算法估計\thetay。E步驟是固定\thetay的期望值,M步驟是固定y使用SGD計算\theta

對於給出bounding box標記的訓練圖像,該方法先使用CRF對該訓練圖像做自動分割,然后在分割的基礎上做全監督學習。通過實驗發現,單純使用圖像級別的標記得到的分割效果較差,但是使用bounding box的訓練數據可以得到較好的結果,在VOC2012 test數據集上得到mIoU 62.2%。另外如果使用少量的全標記圖像和大量的弱標記圖像進行結合,可以得到與全監督學習(70.3%)接近的分割結果(69.0%)。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM