GridMask Data Augmentation, ARXIV 2020
代碼地址:https://github.com/akuxcw/GridMask
這篇論文提出了一種簡單的數據增強方法,在圖像分類、檢測、分割三個任務進行實驗,效果提升明顯。
1. Introduction
作者首先回顧了數據增強(Data augmentation)方法,指出當前方法有三類:spatial transformation, color distortion, 以及 information dropping。本文提出的方法屬於 information dropping,作者指出,對於此類方法,避免過度刪除或保持連續區域是核心問題:一方面,過度刪除區域將造成完整目標被刪除或者上下文信息缺失,因此,剩下的區域不足以表達目標信息,會成為noisy data。另一方面,保留過多區域,將會使得目標不受影響(untouched),會影響網絡的魯棒性。
作者重點介紹了 Cutout 和 HaS 方法。Cutout方法只刪除圖像中的一塊連續區域,因此,容易出現刪除掉整個目標,或者一點目標也沒有刪除的情況;HaS方法把圖像划分為若干小塊的區域,然后隨機刪除,但仍然會出現和 Cutout 相同的問題。下圖展示了 GridMask 方法與當前方法的對比。
2. Methodology
GridMask 通過生成一個和原圖相同分辨率的mask,然后將該mask與原圖相乘得到一個圖像。下圖中灰色區域的值為1,黑色區域的值為0。這樣,就實現了特定區域的 information dropping,本質上可以理解為一種正則化方法。
GridMask對應4個參數,為 \((x,y,r,d)\) ,四個參數的設置如下圖所示:
從圖中可以看出,\(r\) 代表了保留原圖像信息的比例,有一個計算方法,具體可以閱讀論文。\(d\) 決定了一個dropped square的大小, 參數 \(x\)和\(y\)的取值有一定隨機性,細節可以閱讀論文。
3. 實驗分析
在ImageNet-1K圖像分類任務上,Cutout對ResNet50的提升為0.6%,HaS的提升為0.7%,AutoAugement提升為1.1%,相比而言,GridMask的提升為1.4%。作者還在CIFAR10數據集上進行了實驗,這里不再詳述。
在Ablation Study中,作者首先分析了參數\(r\)。如下圖所示,在ImageNet-1K數據集上,設置為0.6比較好;在CIFAR10數據集上,設置為0.4比較好。作者解釋為,在復雜的數據集上應該保持更多的信息來避免under-fitting,在簡單數據集上應該丟棄更多的信息來減少over-fitting。這和 common sense 是一致的。
作者還在目標檢測、語義分割任務上進行了實驗,具體可閱讀論文,不再詳述。此外,作者還把方法和 Mixup方法進行了結合,結果表明性能同樣可以得到提升。
4. 總結與討論
GridMask是簡單、通用性強並且有效的數據增強工具,同時,作者相信未來可以構造more excellent structures 來進一步改進性能。