網絡的結構如下:
采用FPN結構,Backbone是RetinalNet,分成了P3~P7共5個Layer,分別訓練不同尺寸的Box.每個Layer對應的Head有2個分支,包括一個單獨的分支用來預測分類,另一個分支用來預測兩部分,一部分是Box坐標的回歸,另一部分是GT Box和Anchor之間的IOU,這也是這篇論文的主要創新點,Faster RCNN等方法是對Anchor進行分類,與GT Box的IOU高於0.7的是正例,低於0.3的是負例,而這篇論文直接預測GT Box和Anchor之間的IOU.
Loss Function包括3個部分:分類損失,包括正例和負例,采用Focal Loss作為損失函數;回歸損失,采用Smooth L1作為損失函數;IOU由於在0~1之間,采用Binary cross-entropy作為損失函數.
推理時采用分類值和IOU的值的乘積作為預測框的置信度,也就是排序的依據,其中α用來調整兩者的權重.