對小的、雜亂的和旋轉的物體進行更穩健的檢測:SCRDet
原博客鏈接
論文地址:https://arxiv.org/abs/1811.07126
代碼地址:https://github.com/DetectionTeamUCAS
摘要:
物體檢測一直是計算機視覺的基石。盡管已經取得了相當大的進步,但是對於具有小尺寸,任意方向和密集分布的物體仍然存在挑戰。除了自然圖像之外,這些問題對於非常重要的航拍圖像尤其明顯。本文介紹了一種用於小型,雜亂和旋轉物體的新型多類別旋轉探測器,即SCRDet。具體而言,設計了一個采樣融合網絡,它將多層特征融合到有效的錨點采樣中,以提高對小物體的靈敏度。同時,通過抑制噪聲和突出物體特征,共同探索有監督的像素關注網絡和信道關注網絡,用於小而雜亂的物體檢測。為了更准確地進行旋轉估計,將IoU常數因子添加到平滑L1 loss中以解決旋轉邊界框的邊界問題。在兩個遙感公共數據集DOTA,NWPU VHR-10以及自然圖像數據集COCO,VOC2007和場景文本數據ICDAR2015上進行了大量實驗,展示了我們探測器的最先進性能。代碼和模型將在https://github.com/DetectionTeamUCAS上提供。
1. Introduction(介紹)
物體檢測是計算機視覺中的基本任務之一,並且已經設計出各種通用檢測器[12,15,11,26,30,5,31]。 在一些基准測試中取得了有希望的成果,包括COCO [24]和VOC2007 [9]等。然而,大多數現有的探測器並沒有特別關注在開放環境中進行穩健物體探測的一些有用方面:小物體,雜亂排列和任意取向。
在現實世界的問題中,由於相機分辨率和其他原因的限制,感興趣的物體可以具有非常小的尺寸,例如 用於檢測交通標志,街道上公共攝像機下的小臉。 而且,物體的范圍可以非常密集,例如 商場里的商品。 此外,物體不能再像COCO,VOC2007那樣水平放置,例如, 用於場景文本檢測,其中文本可以在任何方向和位置。
特別是,上述三個挑戰對於遙感圖像來說非常明顯,分析如下:
1)小物件。 航拍圖像通常包含被復雜周圍場景淹沒的小物體;
2)雜亂的布置。 用於檢測的物體通常密集排列,例如車輛和船舶;
3)任意方向。 航拍圖像中的對象可以以各種方向出現。 它受到遙感中常見的大縱橫比問題的進一步挑戰。
在本文中,我們主要討論我們在遙感環境中的方法,而方法和問題是一般的,我們已經測試了不止是航拍圖像的各種數據集,如實驗中所示。
許多現有的通用探測器如FasterRCNN [31]已廣泛用於航空物體探測。 然而,這種檢測器的設計通常基於邊界框基本上處於水平位置的隱含假設,這不是航拍圖像(和其他檢測任務,例如場景文本檢測)的情況。 通過流行的非極大抑制(NMS)技術作為后處理進一步突出了這種限制,因為它將抑制在水平線上以任意方向檢測密集排列的物體。 此外,基於水平區域的方法提取用於遙感的關鍵信息,在方向估計上具有粗分辨率。
我們提出了一種用於小型,雜亂和旋轉物體的新型多類別旋轉探測器,稱為SCRDet,其被指定用於解決以下問題:1)小物體:設計采樣融合網絡(SF-Net),其結合了特征融合和特征錨采樣; 2)噪聲背景:開發了一種受監督的多維注意網絡(MDA-Net),它由像素注意力網絡和信道注意力網絡組成,用於抑制噪聲和突出前景。 3)任意方向的雜亂且密集的物體:通過引入用於估計的角度相關參數來設計角度敏感網絡。 將這三種技術作為一個整體,我們的方法在公共數據集上實現了最先進的性能,包括兩個遙感基准DOTA和NWPU VHR-10。 本文的貢獻是:
1)對於小物體,通過特征融合和錨點采樣設計出定制的特征融合結構。
2)對於雜亂的小物體檢測,開發了一種有監督的多維注意網絡,以減少背景噪聲的不利影響。
3)為了更加穩健地處理任意旋轉的物體,通過添加IoU常數因子來設計改進的平滑L1損失,該因子被定制以解決旋轉邊界框回歸的邊界問題。
4)也許更重要的是,在4.2節中我們表明所提出的技術是通用的,也可以應用於自然圖像並結合一般檢測算法,這些算法超越了最先進的方法或通過組合進一步改進了現有方法。
2. Related Work(相關工作)
現有的檢測方法主要是假設檢測對象沿圖像中的水平線定位。 在開創性工作[12]中,提出了一個用於區域檢測的多階段R-CNN網絡,隨后在准確性和效率方面進行了改進,包括Fast R-CNN [11],Faster R-CNN [31] 和基於區域的完全卷積網絡(R-FCN)[5]。 另一方面,還有一系列最近的作品直接回歸邊界框,例如: 單次物體探測器(SSD)[26]並且您只需查看一次(YOLO)[30]即可提高速度。
如上所述,存在關於小物體,密集布置和任意旋轉的挑戰性場景。然而,盡管它們在實踐中具有重要性,但上述探測器並未特別解決它們。特別是對於航拍圖像,由於其對國家和社會的戰略價值,還努力開發定制的遙感方法。RP-Faster R-CNN框架是在[14]中為小型物體開發的。[40]組合可變形卷積層[6]和R-FCN,以提高檢測精度。最近,[40]中的作者采用自上而下和跳過的連接來生成一個精確分辨率的單個高級特征映射,從而提高了可變形的快速R-CNN的性能。然而,這種基於水平區域的檢測器仍然面臨着在尺度,方向和密度方面的上述瓶頸的挑戰,這需要超出水平區域檢測設置的更多原理方法。另一方面,有一個遙感工作的線程,用於檢測任意方向的物體。然而,這些方法通常適合於特定的對象類別,例如,車輛[36],船[41,42,28,43,27],飛機[25]等。雖然最近有一些方法可用於多類別旋轉區域檢測模型[2,8],但它們缺乏處理小尺寸和高密度的原則性方法。
與自然圖像的檢測方法相比,場景文本檢測[19,29]的文獻往往更注重面向對象。 雖然這種方法在處理基於航空圖像的物體檢測方面仍然存在困難:一個原因是大多數文本檢測方法僅限於單類物體檢測[44,34,7],而通常遙感要識別許多不同的類別。 另一個原因是航拍圖像中的物體通常比場景文本中的物體相互之間更靠近,這限制了基於分割的檢測算法[7,44]的適用性,否則它們在場景文本上運行良好。 此外,通常存在大量密集分布的對象,這些對象需要有效的檢測。
本文綜合考慮了上述各方面,提出了航空圖像中多類任意導向目標檢測的原理方法。
3. The Proposed Method(提出的方法)
首先概述我們的兩階段方法,如 圖1 所示。在第一階段,通過添加SF-Net和MDA-Net,特征圖預計包含更多的特征信息和更少的噪聲。 對於角度參數的位置靈敏度,該階段仍然使水平框回歸。 通過改進的五參數回歸和第二階段中每個提議的旋轉非最大抑制(R-NMS)操作,我們可以獲得任意旋轉下的最終檢測結果。

圖1:SCRDet包括SF-Net和MDA-Net,針對小而雜亂的對象的和針對旋轉對象的旋轉分支
3.1. Finer Sampling and Feature Fusion Network(更精細的采樣和特征融合網絡)
在我們的分析中,檢測小物體有兩個主要障礙:物體特征信息不足和錨樣本不足。 原因是由於使用了池化層,小對象在深層中丟失了大部分特征信息。 同時,高級特征圖的較大采樣步幅傾向於直接跳過較小的對象,導致采樣不充分。
特征融合: 一般認為低級特征映射可以保留小對象的位置信息,而高級特征映射可以包含更高級別的語義提示。 特征金字塔網絡(FPN)[23],自上而下調制(TDM)[35],以及對象性先驗網絡(RON)[21]的反向連接是涉及融合高層和低層特征的常見形式。
更精細的采樣: 不適當的訓練樣本和不平衡會影響檢測性能。 通過引入預期最大重疊(EMO)分數,[45]中的作者計算錨和對象之間的預期最大IoU。 他們發現錨點(S_A)的較小步幅是,EMO得分越高,統計上導致所有物體的平均最大IoU提高。 圖2 示出了分別給出步幅16和8的小物體采樣的結果。 可以看出,較小的S_A可以采樣更高質量的樣本,很好地捕獲小物體,這對探測器訓練和推理都有幫助。

圖2:使用不同錨步幅S_A的錨定采樣。 橙黃色邊界框表示錨點,綠色表示地面實況,紅色框表示具有最大IoU地面實況的錨點。
基於以上分析,我們設計了精細采樣和特征融合網絡(SF-Net),如圖3 所示。在基於錨點的檢測框架中,S_A的值等於特征圖相對於原始圖像的縮減因子。換句話說,S_A的值只能是2的指數倍。SF-Net通過改變特征圖的大小來解決這個問題,使得S_A的設置更靈活,以允許更多的自適應采樣。為了減少網絡參數,SF-Net僅使用Resnet [16]中的C3和C4進行融合,以平衡語義信息和位置信息,同時忽略其他不太相關的特征。簡單來說,SF-Net的第一個通道上采樣C4,使其S_A = S,其中S是預期的錨步幅。第二個通道也將C3上采樣到相同的大小。然后,我們通過一個初始結構傳遞C3,以擴展其接收領域並增加語義信息。初始結構包含各種比率卷積核,以捕獲對象形狀的多樣性。最后,通過逐個元素地添加兩個通道來獲得新的特征映射F3。表1 顯示了不同S_A下DOTA的檢測精度和訓練開銷。我們發現最優的S A取決於特定的數據集,尤其是小物體的尺寸分布。在本文中,S的值通常設置為6,以便在准確度和速度之間進行權衡。

圖3:SF-Net。 F3具有較小的S_A,同時充分考慮了不同尺度的特征融合和適應性。

表1:在不同步幅S_A下,在DOTA上進行18K迭代時,每幅圖像的准確性和平均訓練開銷。
3.2. Multi-Dimensional Attention Network(多維注意力網絡)
由於諸如航空圖像之類的現實世界數據的復雜性,RPN提供的建議可能會引入大量的噪聲信息,如圖4b所示。 過多的噪聲會使對象信息不知所措,對象之間的邊界將變得模糊(請參見圖4a),從而導致漏檢和誤報增加。 因此,有必要增強對象提示並削弱非對象信息。 已經提出了許多注意力結構[18、17、37、38]來解決遮擋,噪聲和模糊的問題。 但是,大多數方法是無監督的,難以指導網絡學習特定目的。
為了更有效地捕捉復雜背景下的小物體的客觀性,我們設計了一種有監督的多維注意力學習器(MDA-Net),如圖5所示。具體地說,在像素注意力網絡中,特征圖F3通過具有不同比率卷積核的初始結構,然后通過卷積運算學習兩通道顯着性圖(參見圖4d)。顯着圖分別表示前景和背景的分數。然后,在顯着圖上執行Softmax操作,並選擇一個通道與F3相乘。最后,如圖4c所示,獲得新的信息特征圖A3。應該注意的是,Softmax函數之后的顯着性圖的值在[0,1]之間。換句話說,它可以減少噪聲並相對增強對象信息。由於顯着性圖是連續的,因此不會完全消除非對象信息,這對於保留某些上下文信息並提高魯棒性是有利的。為了指導網絡學習此過程,我們采用了監督學習方法。首先,我們可以很容易地根據地面真實情況將二值圖作為標簽(如圖4e所示),然后將二值圖的交叉熵損失和顯着性圖用作注意力損失。此外,我們還使用SENet [18]作為輔助的頻道關注網絡,減少率的值為16。

圖4:多維注意力網絡的可視化。 (a)邊界模糊。 (b)輸入關注網絡的特征圖。 (c)注意網絡的輸出特征圖。 (d)顯着性圖。 (e)二進制圖。 (f)事實真相。

圖5:設計的MDA-Net由通道關注網絡和像素關注網絡組成。
3.3. Rotation Branch(旋轉分支)
RPN網絡為第二階段提供了粗略的建議。 為了提高RPN的計算速度,我們在訓練階段將NMS操作的最高得分12,000回歸框作為得分,並獲得2,000作為建議。 在測試階段,NMS從10,000個回歸框中提取了300個建議。
在第二階段,我們使用五個參數(x,y,w,h,θ)表示面向任意方向的矩形。 在[-π/ 2,0)范圍內,θ定義為與x軸的銳角,在另一側,我們將其表示為w。 此定義與OpenCV一致。 因此,軸對齊邊界框上的IoU計算可能會導致傾斜交互式邊界框的IoU不正確,從而進一步破壞邊界框的預測。 提出了一種考慮三角剖分的偏斜IoU計算[29]的實現,以解決該問題。 我們使用旋轉非最大抑制(R-NMS)作為基於偏斜IoU計算的后處理操作。 對於數據集中形狀的多樣性,我們為不同類別設置了不同的R-NMS閾值。 此外,為了充分利用預訓練權重ResNet,我們用C5塊和全局平均池(GAP)替換了兩個完全連接的層fc6和fc7。 旋轉邊界框的回歸為:

其中x,y,w,h和θ分別表示框的中心坐標,寬度,高度和角度。 變量x,x_a和x’分別用於地面真實框,錨定框和預測框(同樣適用於y,w,h和θ)。
3.4. Loss Function(損失函數)
使用多任務損失,其定義如下:

其中N表示提案數量,
tn表示對象的標簽,
pn是由Softmax函數計算的各個類別的概率分布,
ntn′是一個二進制值(
ntn′ = 1表示前景,
ntn′ = 0表示背景,背景無回歸)。
{∗j}v∗j′表示預測的偏移矢量,
{∗j}v∗j表示地面真相的目標矢量。
{ij}uij,
{ij}uij′分別代表遮掩像素的標簽和預測。 IoU表示預測框和地面真相的重疊。 超參數
λ1,
λ2,
λ3控制權衡。 另外,分類損失
{cls}Lcls是Softmax交叉熵。 回歸損失
Lreg是平滑的L1損失,如[11]中所定義,注意損失
Latt是像素方向的Softmax交叉熵。
尤其是,存在旋轉角度的邊界問題,如圖6所示。它表明了一種理想的回歸形式(藍色框相對於紅色框逆時針旋轉),但是這種情況的損失非常大角度的周期性。因此,模型必須以其他復雜形式回歸(例如,在縮放w和h時順時針旋轉藍色框),從而增加了回歸難度,如圖7a所示。為了更好地解決這個問題,我們在傳統的平滑L1損失中引入了IoU常數因子
j,v_j)|}∣Lreg(vj′,vj)∣∣−log(IoU)∣ ,如公式3。可以看出,在邊界情況下,損失函數近似等於|-log(IoU)|≈0,消除了loss的突然增加,如圖7b所示。新的回歸損失可以分為兩部分,
{reg}(v'j,v_j)}{|L{reg}(v'_j,v_j)|}∣Lreg(vj′,vj)∣Lreg(vj′,vj)確定梯度傳播的方向,並且| − log(IoU)|表示梯度的大小。此外,使用IoU優化位置精度與IoU主導的度量標准是一致的,它比坐標回歸更直接,更有效。

圖6:旋轉角的邊界不連續。

圖7:比較兩個Loss的檢測結果
4. Experiments(實驗)
在具有Nvidia Geforce GTX 1080 GPU和8G內存的服務器上基於TensorFlow實施測試。 我們在航標和自然圖像上進行實驗,以驗證我們技術的通用性。 請注意,我們的技術與特定的網絡骨干正交。 在實驗中,我們使用Resnet-101作為遙感基准的骨干,而FPN和 R2CNN分別用於COCO,VOC2007和ICDAR2015。
4.1. Experiments on Aerial Images(航空影像實驗)
4.1.1. Datasets and Protocls(數據集和協議)
基准DOTA [39]用於航空影像中的物體檢測。 它包含來自不同傳感器和平台的2,806張航拍圖像。 圖像大小范圍從800×800到4000×4000像素,並且包含顯示各種比例,方向和形狀的對象。 然后,專家使用15個常見對象類別對這些圖像進行注釋。 完全注釋的DOTA基准包含188,282個實例,每個實例都標有任意四邊形。 DOTA有兩個檢測任務:水平邊界框(HBB)和定向邊界框(OBB)。 隨機選擇一半原始圖像作為訓練集,將1/6作為驗證集,將1/3作為測試集。 我們將圖像划分為800×800個子圖像,重疊200個像素。
公開基准NWPU VHR-10 [4]包含用於檢測的10類地理空間對象。 該數據集包含800個超高分辨率(VHR)遙感圖像,這些圖像是從Google Earth和Vaihingen數據集裁剪而來的,然后由專家手動注釋。
我們使用預訓練的ResNet-101模型進行初始化。 對於DOTA,該模型總共進行了300k次迭代訓練,並且學習率在從3e-4到3e-6的100k和200k迭代期間發生了變化。 對於NWPU VHR-10,訓練數據集,驗證數據集和測試數據集的分割率分別為60%,20%和20%。 該模型經過總計20k次迭代訓練,學習率與DOTA相同。 此外,重量衰減和動量分別為0.0001和0.9。 我們使用MomentumOptimizer作為優化器,除了訓練過程中的隨機圖像翻轉外,不執行任何數據增強。
對於參數設置,將第3.1節中討論的預期錨跨度S設置為6,並將基礎錨大小設置為256,並將錨定比例設置為
2−4到
21。 由於DOTA和NWPU VHR-10中的多類別對象具有不同的形狀,因此我們將錨定比率設置為[1 / 1、1 / 2、1 / 3、1 / 4、1 / 5、1 / 6、1 / 7 ,1/9]。 這些設置確保可以為每個ground-truth分配正樣本。 當IoU> 0.7時,將錨定為正樣本,如果IoU <0.3,則將錨定為負樣本。 此外,由於大縱橫比矩形中的角度和IoU之間的靈敏度,第二階段中的兩個閾值都設置為0.4。 對於訓練,兩個階段的最小批量大小為512。等式3中的超參數設置為
λ1 = 4,
λ2 = 1,
λ3 = 2。

表2:在DOTA數據集上對我們提出的方法中的每個組成部分進行燒蝕研究(? Ablative study,不知道咋翻)。 類別的簡稱定義為:PL-飛機,BD-棒球鑽石,BR-橋梁,GTF-地面賽道,SV-小型車,LV-大型車,SH-Ship,TC-網球場,BC-籃球 球場,ST儲油罐,SBF足球場,RA-Roundabout,HA港口,SP游泳池和HC直升機。

表3:在DOTA數據集上評估OBB和HBB任務的性能。

表4:NWPU VHR-10上HBB任務的性能。

表5: “MDA-Net†”是指沒有監督學習的MDA-Net。 “baseline†”表示有監督的baseline。
4.1.2 Ablation Study
基准設置。 我們選擇基於Faster-RCNN的R 2 CNN [19]作為消融研究的基線,但不僅限於此方法。 為了公平起見,所有實驗數據和參數設置均嚴格一致。 我們使用平均平均精度(mAP)作為性能指標。 此處報告的DOTA的結果是通過將我們的預測提交到官方DOTA評估服務器(見引用1)獲得的。
MDA-Net的效果。 如3.2所述,注意結構有利於抑制噪聲影響並突出顯示對象信息。 從表2還可以看出,加入像素注意力網絡后,大多數物體的檢測結果均有不同程度的提高,總mAP增加了3.67%。 MDA-Net進一步提高了寬高比目標的檢測精度,例如橋梁,大型車輛,船舶,港口等。 與像素關注相比,MDANet將mAP提升了約1%,達到65.33%。 表5顯示了監督學習是MDANet的主要貢獻,而不是計算。
**SF-Net的效果。**減小錨的步幅大小和特征融合是改進對小物體的檢測的有效手段。在表2中,我們還研究了[45]中介紹的技術。移位錨點(SA)和移位抖動(SJ)都遵循使用單個特征點使多個子區域的邊界框回歸的想法。實驗表明,根據原始論文的觀察,這兩種策略幾乎無法提高准確性。擴大特征圖是減少
SA的好策略,包括雙線性上采樣(BU),帶跳過連接的雙線性上采樣(BUS),膨脹卷積(DC)。盡管這些方法考慮了采樣對小物體檢測的重要性,並且其檢測性能已得到不同程度的改善,但
SA設置仍然不夠靈活,無法獲得最佳采樣結果。 SF-Net有效地建模了特征融合和
SA設置的靈活性,它實現了68.89%的最佳性能,特別是受益於對小物體(如車輛,船舶和儲罐)的改進。
IoU平滑L1丟失的影響。 IoU平滑L1損耗消除了角度的邊界影響,使模型更容易回歸到對象坐標。 這個新的損失將檢測精度提高到69.83%。
圖像金字塔的效果。 基於圖像金字塔的培訓和測試是提高性能的有效手段。 ICN [2]方法使用圖像級聯網絡結構,類似於圖像金字塔的想法。 在這里,我們將原始圖像隨機縮放為[600×600、800×800、1,000×1,000、1、200×1,200],並將其發送到網絡進行訓練。 為了進行測試,每個圖像都以四個比例進行測試,並通過R-NMS進行組合。 如表2所示,圖像金字塔可以顯着提高檢測效率並達到72.61%的mAP。 DOTA上每個類別的檢測結果如圖8所示。

圖8:DOTA示例。 我們的方法在小尺寸,任意方向和高密度的對象上表現更好。
4.1.3. Peer Methods Comparison(對等方法比較)
OBB任務。 除了DOTA提供的官方基准,我們還與RRPN [29],R 2 CNN [19],R-DFPN [41],ICN [2]和RoI-Transformer [8]進行了比較,它們都適用於多 分類旋轉對象檢測。 表3顯示了這些方法的性能。 RoI-Transformer,ICN和SCRDet在小物體檢測方面的出色性能歸因於特征融合。 SCRDet考慮了融合中接收場的擴展和噪聲的衰減,因此對於大型物體,它比ICN和RoI-Transformer更好。 我們的方法在現有已發表結果中排名第一,達到mAP的72.61%。
HBB任務。 我們使用DOTA和NWPU VHR-10來驗證我們提出的方法並屏蔽代碼中的角度參數。 表3和表4分別顯示了兩個數據集的性能。 在DOTA文獻中,我們在現有方法中也排名第一,約為75.35%。 對於NWPU VHR-10數據集,我們將其與9種方法進行比較,並以91.75%的質量實現了最佳檢測性能。 我們的方法可在一半以上的類別上實現最佳檢測精度。
4.2. Experiments on Natural Images(自然圖像實驗)
為了驗證我們模型的通用性,我們進一步驗證了在通用數據集和通用檢測網絡FPN [23]和
R2CNN [19]上提出的技術。 我們選擇COCO [24]和VOC2007 [9]數據集,因為它們包含許多小對象。 我們還使用ICDAR2015 [20],因為存在用於場景文本檢測的旋轉文本。
由表6可以看出,在COCO [24]和VOC2007 [9]數據集上,帶有MDA-Net的
FPN∗可以分別增加0.7%和2.22%。 如圖9所示,MDA-Net在密集和小物體檢測方面均具有良好的性能。 平滑損耗並未對水平區域檢測帶來很大的改善,因此也反映了其與旋轉檢測邊界問題的相關性。

表6:擬議結構對通用數據集的有效性。 符號∗表示我們自己的實現。 對於VOC 2007,所有方法均在VOC2007訓練集上進行訓練,並在VOC 2007測試集上進行測試。 對於COCO,所有結果都是在最小集合上獲得的。 對於ICDAR2015,將結果提交到官方網站即可獲得結果。

圖9:COCO的檢測結果。 第一列是 FPN∗ + MDA-Net的結果,第二列是 FPN∗ 。 紅色框表示丟失的對象,橙色框表示錯誤警報。
根據[19],對於ICDAR2015,
R2CNN-4的單一比例達到74.36%。 由於它不是開源的,因此我們重新實現它,並根據無多個合並大小結構的紙張中旋轉框的定義將其版本稱為
R2CNN-
4∗,我們的版本可以實現77.23%的mAP。 然后,我們為
R2CNN-
4∗配備我們提出的技術,並將其稱為
SCRDet−R2CNN。 它在單個規模上實現了最高的性能80.08%。 再次證明了本文提出的結構的有效性。 根據圖10,
SCRDet−R2CNN可以顯着改善密集對象檢測的召回率。

圖10:COCO和ICDAR2015的檢測結果。 第一列是采用我們的技術( SCRDet−R2CNN)的 R2CNN- 4∗的結果,第二列是vanilla的 R2CNN- 4∗的結果。 紅色箭頭表示錯過的對象。
5. Conclusion(結論)
我們提出了一種端到端的多類別檢測器,該檢測器指定用於任意旋轉的對象,這在航空影像中很常見。 考慮到特征融合和錨點采樣的因素,增加了具有較小 SA的采樣融合網絡。 同時,該算法通過監督的多維注意力網絡來減弱噪聲的影響並突出顯示對象信息。 此外,我們實施旋轉檢測以保留方向信息並解決密集的問題。 我們的方法在兩個公共遙感數據集上獲得了最先進的性能:DOTA和NWPU VHR-10。 最后,我們在自然數據集(例如COCO,VOC2007和ICDAR2015)上進一步驗證了我們的結構。
