機器學習_深度學習_入門經典(博主免費教學視頻系列)
https://study.163.com/course/courseMain.htm?courseId=1006390023&share=2&shareId=400000000398149
本文鏈接:https://blog.csdn.net/yeler082/article/details/78370795
原文鏈接:Deformable Convolutional Networks 代碼鏈接:https://github.com/msracver/Deformable-ConvNets
一、首先看看文章的摘要
由於構造卷積神經網絡 (CNN) 所用的模塊中幾何結構是固定的,其幾何變換建模的能力本質上是有限的。在我們的工作中,我們引入了兩種新的模塊來提高卷積神經網絡 (CNN) 對變換的建模能力,即可變形卷積 (deformable convolution) 和可變形興趣區域池化 (deformable ROI pooling)。它們都是基於在模塊中對空間采樣的位置信息作進一步位移調整的想法,該位移可在目標任務中學習得到,並不需要額外的監督信號。新的模塊可以很方便在現有的卷積神經網絡 (CNN) 中取代它們的一般版本,並能很容易進行標准反向傳播端到端的訓練,從而得到可變形卷積網絡 (deformable convolutional network)。大量的實驗驗證了我們的方法在目標檢測和語義分割這些復雜視覺任務上的有效性。
二、進一步的分析
這是一種對傳統方塊卷積的改進核,本質是一種抽樣改進。
談到抽樣,人腦好像天生知道如何抽樣獲得有用特征,而現代機器學習就像嬰兒一樣蹣跚學步。我們學會用cnn自動提取有用特征,卻不知用什么樣的卷積才是最有效的。我們習慣於方塊卷積核窗口,而Jifeng Dai的work認為方塊不是最好的形狀。
標准卷積中的規則格點采樣是導致網絡難以適應幾何形變的“罪魁禍首”。為了削弱這個限制,研究員們對卷積核中每個采樣點的位置都增加了一個偏移的變量。通過這些變量,卷積核就可以在當前位置附近隨意的采樣,而不再局限於之前的規則格點。這樣擴展后的卷積操作被稱為可變形卷積(deformable convolution)。
三、用圖說話
圖1:展示了卷積核大小為 3x3 的正常卷積和可變形卷積的采樣方式,(a) 所示的正常卷積規律的采樣 9 個點(綠點),(b)(c)(d) 為可變形卷積,在正常的采樣坐標上加上一個位移量(藍色箭頭),其中(c)(d) 作為 (b) 的特殊情況,展示了可變形卷積可以作為尺度變換,比例變換和旋轉變換的特殊情況
事實上,可變形卷積單元中增加的偏移量是網絡結構的一部分,通過另外一個平行的標准卷積單元計算得到,進而也可以通過梯度反向傳播進行端到端的學習。加上該偏移量的學習之后,可變形卷積核的大小和位置可以根據當前需要識別的圖像內容進行動態調整,其直觀效果就是不同位置的卷積核采樣點位置會根據圖像內容發生自適應的變化,從而適應不同物體的形狀、大小等幾何形變。然而,這樣的操作引入了一個問題,即需要對不連續的位置變量求導。作者在這里借鑒了之前Spatial Transformer Network和若干Optical Flow中warp操作的想法,使用了bilinear插值將任何一個位置的輸出,轉換成對於feature map的插值操作。同理,類似的想法可以直接用於 (ROI) Pooling中改進。
Figure 2 展示了可變形卷積框架,首先通過一個小卷積層(綠色)的輸出得到可變形卷積所需要的位移量,然后將其作用在卷積核(藍色)上,達到可變形卷積的效果。
Figure 3 展示了可變形興趣區域池化框架。首先通過標准的興趣區域池化(綠色)獲得興趣區域對應的特征,該特征通過一個全連接層得到興趣區域每個部位的位移量。用該位移作用在可變形興趣區域池化(藍色)上,以獲得不局限於興趣區域固定網格的特征
Figure 4 展示了兩層結構,擁有標准固定感受野的卷積層 (a) 與擁有自適應感受野的可變性卷積層(b)。最上方是兩個在不同大小的物體上的激活單元,中間是該單元所需的采樣位置,最下方是中間的采樣點分別所需的采樣位置
Figure 5 對可變形卷積的效果進行了可視化,其中左中右分別展示了激活單元(綠點)倒推三層可變形卷積層以后在背景/小物體/大物體上的所采樣的點
Figure 6 對可變形興趣區域池化的效果進行可視化,使用了 R-FCN,興趣區域網格大小為 3x3,可以發現現在池化區域基本覆蓋在物體上。
Table 1 在各種方法和各種數據集上,使用不同層數的可變形卷積對結果帶來的影響,其中 DeepLab 在 VOC2012 與 Cityscapes 的訓練集上進行訓練,在驗證集上進行測試,class-aware RPN, Faster R-CNN 與 R-FCN 在 VOC2007 與 VOC2012 的訓練驗證集上進行訓練,在 VOC2007 的測試集上進行測試。
四、可變卷積網絡的新思路:簡明深刻的網絡結構變革
可變形卷積單元具有諸多良好的性質。它不需要任何額外的監督信號,可以直接通過目標任務學習得到。它可以方便地取代任何已有視覺識別任務的卷積神經網絡中的若干個標准卷積單元,並通過標准的反向傳播進行端到端的訓練。是對於傳統卷積網絡簡明而又意義深遠的結構革新,具有重要的學術和實踐意義。它適用於所有待識別目標具有一定幾何形變的任務(幾乎所有重要的視覺識別任務都有此特點,人臉、行人、車輛、文字、動物等),可以直接由已有網絡結構擴充而來,無需重新預訓練。它僅增加了很少的模型復雜度和計算量,且顯著提高了識別精度。例如,在用於自動駕駛的圖像語義分割數據集(CityScapes)上,可變形卷積神經網絡將准確率由70%提高到了75%。
此外,通過增加偏移量來學習幾何形變的思想還可方便地擴展到其它計算單元中去。例如,目前業界最好的物體檢測方法都使用了基於規則塊采樣的興趣區域(region of interests, ROI)池化(pooling)。在該操作中,對於每個采樣的規則塊增加類似的偏移量,從而得到可變形興趣區域池化 (deformable ROI pooling)。由此所獲得的新的物體檢測方法也取得了顯著的性能提升。
近年來,與神經網絡結構相關的研究工作層出不窮,大多是對於各種基本網絡單元連接關系的研究。不同於大部分已有的工作,可變形卷積網絡首次表明了可以在卷積網絡中顯式地學習幾何形變。它修改了已使用二十余年的基本卷積單元結構,在重要的物體檢測和語義分割等計算機視覺任務上獲得了重大的性能提升。
可以想象,在不遠的未來,在更多的計算機視覺識別任務中(如文字檢測、視頻物體檢測跟蹤等)都將看到它的成功應用。
https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149(博主視頻教學主頁)