PANet是18年的一篇CVPR,作者來自港中文,北大,商湯與騰訊優圖,PANET可看作Mask-RCNN+,是在Mask-RCNN基礎上做的幾處改進。
論文地址:https://arxiv.org/abs/1803.01534
論文翻譯:http://tongtianta.site/paper/1184
論文出發點:當前實例分割最佳模型Mask-RCNN的信息傳播還不夠充分,具體地,低層特征到高層特征的傳遞路徑過長,FPN中每個proposal只負責金字塔特定的一層,掩碼預測只基於單一視角
論文貢獻:針對上提出的幾點不足,分別設計了相應的改進,所以,論文的貢獻也有三點
- 自底向上的路徑增強,為了縮短信息傳播路徑,同時利用低層特征的精准定位信息
- 動態特征池化,每個proposal利用金字塔所有層的特征,為了避免proposal的隨意分配
- 全連接層融合,為了給掩碼預測增加信息來源,文中的說法是capture diffrent view
實驗結果:coco2017實例分割第一名 目標檢測第二名
網絡整體結構如下,可以看到明顯是對Mask-RCNN的改進,整體框架沒有變
下面針對上面的三點貢獻,詳細解釋。
1.自底向上路徑增強
如上圖中所示,FPN是自頂向下,將高層的強語義特征傳遞下來,對整個金字塔進行增強,不過只增強了語義信息,對定位信息沒有傳遞,而本文就是針對這一點,在FPN的后面添加一個自底向上的金字塔,可以說是很皮了。這樣的操作是對FPN的補充,將低層的強定位特征傳遞上去,個人稱之為”雙塔戰術“。
2.動態特征池化
FPN中的每個proposal根據其大小分配給不同的特征層,但這樣可能不夠好,原因如下,一是按照大小來分配本身有缺陷,大小相近的proposal可能分配到相鄰的層,二是特征的重要程度可能與層級沒什么關系,這是論文中的解釋,我覺得這兩點無關痛癢,我認為這個特征池化層的好處關鍵是每個proposal聚合了多層的信息,對分類及定位更加有利。至於融合的細節,也就是C中的小圓圈,可參考下圖
金字塔上四個灰色區域對應的是同一個proposal,根據特征圖相應縮放,分別取到特征后進行融合,上圖只是box分支的融合圖,掩碼分支的論文中沒有畫出來,但原理是一樣的,拿上圖來說,四個特征圖分別全連接,然后融合,融合操作或者采取max,或者sum,或者相乘。
3.全連接層融合
全連接層具有不同於CNN的結構,CNN產生的特征圖上每個像素點來自同一個卷積核,也就是常說的參數共享,另外,卷積核的大小往往為3*3,5*5,7*7,也就是說采集的是局部的信息。
全連接層其實可由卷積實現,可看作感受野為整個特征圖的卷積核,所以全連接層是感受野更大的卷積,另外,這里的卷積參數不共享,每個像素點擁有一個卷積核,所以區別在於感受野和參數是否共享,文中說全連接層是位置敏感的,這一點我還沒看出來,我個人覺得在感受野上的補充應該是一個重要的功能,至於對位置更加敏感,有利於定位,我無法理解。
另外,貼一下對比試驗,驗證上面三點的作用。
其中,BPA,AFP,FF分別對應上面提出的三點改進,效果明顯,鐵證如山。
至於其它的實驗結果就不貼了,比較遺憾的是論文中並沒有貼出與Mask-RCNN在一些圖片上的直觀的對比圖,那樣更有說服力了。