航拍圖像面臨的問題
- 正常圖像受重力作用相對固定,航拍圖像的物體受拍攝角度影響
- 航拍圖像的物體比例變化很大
- 某些航拍圖像中小物體很密集
- 傳統的數據集面臨數據偏差的問題嚴重

好的數據集必備的幾個特征
- 大量圖像數據
- 單個類別有足夠多的實例
- 正確定向對象說明
- 單張圖片中有足夠多種類的物體,以便接近於真實世界
DOTA數據集特征
-
15種類別:飛機、輪船、儲槽、網球場、籃球場、棒球場、田徑場、港口、橋、大的交通工具、小的交通工具、直升機、環島、足球場、游泳池。其中14個主類,(交通工具算一個主類)
paper中的描述:plane, ship, storage tank, baseball diamond, tennis court, basketball court, ground track field, harbor, bridge, large vehicle, small vehicle, helicopter, roundabout, soccer ball field and basketball court.
-
傳統的bbox檢測方式通過四元組$ (x_c, y_c, w, h)$來表示,即一個沒有角度的bounding box來識別object

兩種思路:
- \((x_c, y_c, w, h, \theta)\),只能用來標記正方形的bbox,不能將大物體緊密的包圍在bbox中
- 四個點的不規則四邊形。選定初始點為第一個點,然后按照順時針方向依次標注四個點。初始點的選擇規則:物體頭部或者左上角點
-
數據集划分:1/6的驗證集、1/3的測試集和1/2的訓練集,其中測試集不會公布。
-
圖片尺寸從800X800到4000X4000不等,傳統的數據集少有超過1000X1000的。
-
圖像中的實例很多,縱橫比不一。傳統用於COCO檢測的模型不適用(類似密集檢測)。圖像中相同類別的物體的大小比例不一致(基於航拍的距離變化),對模型提出了更多的挑戰。細粒度的模型表現會更好,因為模型會更加關注物體的特征而不是通過大小來判別物體。
-
數據集中基於航拍距離的圖片比例如下:
評估原型
-
圖片太大,訓練時對其進行切分。但很可能將一個完整的物體切分成幾部分。對於\(U_i = \frac{a_i}{A_0} < 0.7\)的物體(可以理解為如果在切分后的圖片中,這個物體只有原來的70%以下的部分了),就認為識別它是一個比較難的任務
-
兩種任務:HBB(Horizontal bounding box) and OBB(oriented bounding box)。OBB對模型造成了很大的困難。
-
各種模型在DOTA數據集上的表現,左為HBB,右為OBB
結果分析
- 交通工具類和輪船類的分析結果不好,主要原因在於這類物體太小、太密集。
- 對比HBB和OBB的結果,HBB的定位精確度要比OBB差很多,證明了OBB是更加適合實際應用的方式。
- 具有較大縱橫比的物體對於OBB方式的模型來說更加難回歸。
- 交叉數據集驗證證明了模型在DOTA數據集上的表現普遍很差,DOTA數據集的挑戰性更加強。