源文網址:https://arxiv.org/abs/1707.03718
tensorflow代碼:https://github.com/luofan18/linknet-tensorflow
基於Linknet的分割實驗:https://github.com/fourmi1995/IronSegExperiment-LinkNet
摘要
像素級分割不僅准確率上有要求,同時需要應用的實際中實時的應用中。雖然精度上較高,但參數與操作上的數量都是十分巨大的。本文提出的網絡結構參數並未增加。只使用了11.5million的參數量,與21.2GFLOPs用於處理3x360x480的圖片。該網絡在CAMVID上取得state-of-the-art的效果,同時,在Cityscapes上取得較好的結果。該文同時以不同圖像分辨率在NVIDIA GPU上的處理時間進行比較。
介紹
由於像增強現實,自動駕駛等大量任務應用於像素級的分類分割任務上,因此像素級分割成為一個較熱的研究點。受自編碼器的啟發,目前現存的分割網絡以encoder-decoder作為主要網絡結構。編碼層將輸入的信息編碼到特征信息上,解碼器將特征信息映射到空間分類中以進行分割。目標檢測上中Fast RCNN,YOLO,SSD致力於實時的目標檢測,但分割任務上實時性的相關工作仍未有所進展。
該文的貢獻是在不影響處理時間的條件下得到較高分割准確率。一般,編碼層由於卷積池化丟失的位置信息通過池化層最大值的索引或者全卷積操作進行恢復。
該文主要貢獻是並未使用上述方法進行恢復,繞過空間信息,直接將編碼器與解碼器連接來提高准確率,一定程度上減少了處理時間。通過這種方式,保留編碼部分中不同層丟失的信息,同時,在進行重新學習丟失的信息時並未增加額外的參數與操作。
相關工作
分割任務需要對每個像素進行標記,因此,空間信息的保留就比較重要,用於場景分析的分割網絡一般可以分為編碼-解碼部分,分別用於分類與生成。state-of-the-art的分割網絡大多使用ImageNet上的分類模型作為encoder部分。解碼部分使用最大池化操作保留的索引或者學習反卷積的參數等。編碼部分與解碼部分可以是對稱的,也可以是非對稱的。大多數分割網絡在嵌入式上都無法進行實時的分割。使用RNN來獲得語義信息,但RNN的計算量較大。
網絡結構
結果
比較方向:(1)網絡執行前行過程的操作數。(2)Cityscapes與CamVid數據集上的准確率。
操作:類別不平衡處理,基於Pytorch框架,RMSProp優化方法。
參考
[1] Y. LeCun and Y. Bengio, “Convolutional networks for images, speech, and time series,” The handbook of brain theory and neural networks, pp. 255–258, 1998.
[2] Y. LeCun, L. Bottou, G. B. Orr, and K. R. M¨uller, Neural Networks: Tricks of the Trade. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998, ch. Efficient BackProp, pp. 9–50.
[3] M. A. Ranzato, F. J. Huang, Y.-L. Boureau, and Y. LeCun, “Unsupervised learning of invariant feature hierarchies with applications to object recognition,” in Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on, 2007, pp. 1–8.