參考:https://zhuanlan.zhihu.com/p/66762531
摘要重點
1.針對問題
長尾數據分布、嚴重的遮擋和類的模糊性
2.現狀
主流的對象檢測范式由於不考慮對象之間的關鍵語義依賴而單獨處理每個對象區域而受到限制
3.創新
Reasoning-RCNN
該網絡建立在基本檢測網絡特征表示的基礎上,通過對每個類別前一分類層的權值進行加權,生成一個全局語義庫,然后在全局語義庫中加入不同的語義上下文,自適應地增強每個對象的特征。我們的自適應全局推理不是從所有可能的語義信息中傳播信息,而是自動發現與特征演化相關的大多數類別。
也就是說,該文章主要創新點是引入了Global Semantic Pool (全局語義池)和Knowledge Graph(知識圖譜),到達了特征增強的效果。
網絡概述
Reasoning-RCNN網絡概述圖
文章說,Reasoning-RCNN可以堆疊到任何檢測網絡中。將基礎網絡中的分類器的權重收集起來形成一個覆蓋所有類別的全局語義池,然后將全局語義池輸入自適應全局推理模塊。增強后的類別上下文(也就是推理模塊的輸入)通過一個軟連接映射回區域提案。最后,利用每個區域的增強特征以端到端的方式提高分類和定位的性能。
圖左側Base Detector為基礎的檢測網絡,
Base Feature為基礎特征,
Proposals Feature為建議特征,(我覺得應該算是高級語義特征)
ROI Align 是在Mask-RCNN這篇論文里提出的一種區域特征聚集方式, 很好地解決了ROI Pooling操作中兩次量化造成的區域不匹配(mis-alignment)的問題。實驗顯示,在檢測測任務中將 ROI Pooling 替換為 ROI Align 可以提升檢測模型的准確性。
Box Regression 回歸框
Classifier 分類
Classifier Weights 分類權重
image-wise圖像級別,比如一張圖片的標簽是狗,是對整個圖片的標注。Image-wise Attention ,注意力機制。
Global Semantic Pool M 全局語義池由基礎網絡的分類權重組成,包含所有分類。
Knowledge Graph 知識圖譜,編碼存在的語義知識(可以是屬性,關系)。無向圖G<N,ε>,N代表節點數,也就是類別數,ε代表邊數,也就是所連接的i,j節點之間的知識。
Adaptive Global Reasoning 自適應全局推理模塊,Global Semantic Pool M和 Knowledge Graph 輸入其中。
Refined Proposals Features 重定義建議特征
Soft Mapping to Proposals 軟連接到建議特征,將Adaptive Global Reasoning 的結果軟連接到 Refined Proposals Features
Enhanced Features 增強后的特征,由Refined Proposals Features產生,融合了原始特征和增強特征
也就是說,全局語義池獲取基礎分類權重,知識圖譜定義語義知識,輸入到自適應全局推理模塊。全局推理模塊生成新分類,並軟連接到Refined Proposals Features模塊,生成增強的特征,最終生成新的分類和定位。
Adaptive Global Graph Reasoning Module
自適應全局推理模型概述
首先是關於f的定義。f表示為從骨干網中提取的所有N r = |N|region proposals的D維視覺特征。
文章提到了region proposals,我認為proposals feature是從region proposals中提取出來的。
Global Semantic Pool 和Knowledge Graph相結合生成新的信息,通過Attention進行表示(不太懂)。通過soft Mapping 生成Enhanced Features,也就是增強后的特征。此時特征由D維變為E維。
Global Semantic Pool M
作者說現有的大多數作品通常在區域間局部傳播視覺特征。但是,這個圖可能會因為不好而導致圖推理失敗或者當圖像中存在嚴重的遮擋和類歧義時,就會分散特征表示,這在大規模檢測中很常見。作者提出了一個方法,在所有類別(不僅僅是圖像中出現的類別)上全局傳播信息。這就需要創建一個全局語義庫來存儲所有類別的高級語義表示。
由於通過聚類等方法生成全局語義池的計算量太大。作者提出新方法。設表示全局語義池,R是權重,C表示特征類別數,D表示特征維數。通過復制分類網絡中的參數得到全局語義庫。在訓練網絡期間每個迭代中都會更新分類器,使全局語義池M變得更加准確。
Feature Enhanced via Graph Reasoning
在生成全局語義池后,通過先驗知識圖譜的邊矩陣,將C類之間進行連接。然后信息就被C類共享,表示為
。為了增強特征,需要找到region proposals N r和類別C之間的映射。作者將直接映射的方法叫做hard-mapping ,作者提出了自己的方法 soft-mapping,是一個覆蓋C類的分類概率分布
,這個分布可以從之前分類中的得分中得到。然后整個過程可以用矩陣乘法表示
。
,WG是一個被圖譜分享的轉換權重矩陣(is a transformation weight matrix shared for all graphs)E是推理模型的輸出維數。因為全局推理是針對所有類別的,所以會混入噪聲,對此作者引入了自適應注意力機制。
Adaptive Attention
分為
壓縮階段,將圖像特征輸入到一個CNN(卷積核為3*3,輸出通道為D/64)和一個全局池化層中,壓縮一半尺寸。
激活階段,是全連接層,輸入,
soft-max,獲得分類的Attention。。其中
,
。Ws是全連接層的權重。
,
是信道乘積( channel-wise product),其余是矩陣相乘。
。
詳細的自適應全局推理流程圖
全球語義推理進行池M根據先驗知識圖邊e . image-wise適應性注意α計算從壓縮和激發強調相對類別圖像的基本特性。然后自適應全局推理與αchannel-wise獲得的乘積。在此基礎上,根據權值W G進行矩陣乘法,得到增強特征f`。
最終將增強特征f`連接到f上獲得 [f;f ′ ] ,進行分類和定位。
Model Specification with Relation Knowledge
G: 知識
GR:知識關系,類間的成對關系,如 “主語-動詞-對象”的關系,空間關系
類別之間的高級語義關聯將增強全局語義庫。首先,我們從語義信息或簡單地從所有類別對之間的出現次數來計算一個C*C的頻率統計矩陣Rc,然后,我們把轉置(Rc) T加回Rc。對列進行歸一化,最終得到了標准化的GR:
,
。
實驗結果如下