YOLOV4各個創新功能模塊技術分析(一)
簡 介
yolov4論文:YOLOv4: Optimal Speed and Accuracy of Object Detection
arxiv:https://arxiv.org/abs/2004.10934
github源碼:https://github.com/AlexeyAB/darknet
論文摘要
有大量的特征被認為可以提高卷積神經網絡(CNN)的精度。需要在大型數據集上對這些特征的組合進行實際測試,並對結果進行理論證明。某些功能只在某些模型上運行,某些問題只在某些模型上運行,或只在小規模數據集上運行;而某些功能(如批處理規范化和剩余連接)適用於大多數模型、任務和數據集。假設這些通用特征包括加權剩余連接(WRC)、跨階段部分連接(CSP)、跨小批量規范化(CmBN)、自對抗訓練(SAT)和Mish激活。使用了新功能:WRC、CSP、CmBN、SAT、誤激活、馬賽克數據增強、CmBN、DropBlock正則化和CIoU丟失,並將其中一些功能結合起來,以達到最新的結果:43.5%AP(65.7%AP50)的MS COCO數據集,在Tesla V100上以約65 FPS的實時速度。
YOLOV4的發布,可以想象到大家的激動,但是論文其實是一個結合了大量前人研究技術,加以組合並進行適當創新的高水平論文,實現了速度和精度的完美平衡。很多yolov4的分析文章都會說其中應用了哪些技術?本文的目的希望通過YOLOV4提到的各種新技術進行分析,明白YOLOV4后面的功臣算法。
文中將前人的工作主要分為Bag of freebies和Bag of specials,前者是指不會顯著影響模型測試速度和模型復雜度的技巧,主要就是數據增強操作,對應的Bag of specials就是會稍微增加模型復雜度和速度的技巧,如果不大幅增加復雜度且精度有明顯提升,那也是不錯的技巧。本文按照論文講的順序進行分析。由於每篇論文其實內容非常多,主要是分析思想和一些核心細節。
本文技術:random erasing、cutout、hide-and-seek、grid mask、Adversarial Erasing、mixup、cutmix、mosaic、Stylized-ImageNet、label smooth、dropout和dropblock。
一.數據增強相關-Random erasing data augmentation
論文名稱:Random erasing data augmentation
論文地址:https://arxiv.org/pdf/1708.04896v2.pdf
github: https://github.com/zhunzhong07/Random-Erasing
論文摘要
本文介紹了一種用於卷積神經網絡(CNN)訓練的新的數據增強方法&隨機刪除法。在訓練中,隨機擦除隨機選擇圖像中的矩形區域,並使用隨機值擦除其像素。在這個過程中,生成了不同遮擋程度的訓練圖像,這降低了過度遮擋的風險,使模型對遮擋具有魯棒性。隨機擦除無需參數學習,易於實現,可與大多數基於CNN的識別模型集成。盡管很簡單,但隨機刪除對常見的數據增強技術(如隨機裁剪和浮動)來說是一種補充,與強大的基線相比,圖像分類、對象檢測和人員識別都有一致的改進。
隨機擦除增強,非常容易理解。作者提出的目的主要是模擬遮擋,從而提高模型泛化能力,這種操作其實非常make sense,因為把物體遮擋一部分后依然能夠分類正確,那么肯定會迫使網絡利用局部未遮擋的數據進行識別,加大了訓練難度,一定程度會提高泛化能力。其也可以被視為add noise的一種,並且與隨機裁剪、隨機水平翻轉具有一定的互補性,綜合應用他們,可以取得更好的模型表現,尤其是對噪聲和遮擋具有更好的魯棒性。具體操作就是:隨機選擇一個區域,然后采用隨機值進行覆蓋,模擬遮擋場景。
在細節上,可以通過參數控制擦除的面積比例和寬高比,如果隨機到指定數目還無法滿足設置條件,則強制返回。
一些可視化效果如下:
對於目標檢測,作者還實現了3種做法,如下圖所示(然而打開開源代碼,發現只實現了分類的隨機擦除而已,尷尬)。
當然隨機擦除可以和其他數據增強聯合使用,如下所示。
torchvision已經實現了:
https://pytorch.org/docs/master/_modules/torchvision/transforms/transforms.html#RandomErasing
注意:torchvision的實現僅僅針對分類而言,如果想用於檢測,還需要自己改造。調用如下所示:
torchvision.transforms.RandomErasing(p=0.5, scale=(0.02, 0.33), ratio=(0.3, 3.3), value=0, inplace=False)
二.數據增強相關-Cutout
論文名稱:Improved Regularization of Convolutional Neural Networks with Cutout
論文地址:https://arxiv.org/abs/1708.04552v2
github: https://github.com/uoguelph-mlrg/Cutout
論文摘要
卷積神經網絡能夠學習強大的表示空間,這是處理復雜學習任務所必需的。然而,由於捕捉這些表示所需的模型容量,往往容易過度擬合,因此需要適當的正則化才能很好地推廣。本文證明了在訓練過程中隨機屏蔽輸入平方區域的簡單正則化技術(稱之為截斷)可以提高卷積神經網絡的魯棒性和整體性能。這種方法不僅非常容易實現,而且還證明它可以與現有的數據增強形式和其他正則化方法結合使用,以進一步提高模型性能。將此方法應用於CIFAR-10、CIFAR-100和SVHN數據集上的當前最新體系結構,得到了新的最新結果,測試誤差分別為2.56%、15.20%和1.30%。
出發點和隨機擦除一樣,也是模擬遮擋,目的是提高泛化能力,實現上比random erasing簡單,隨機選擇一個固定大小的正方形區域,然后采用全0填充就OK了,當然為了避免填充0值對訓練的影響,應該要對數據進行中心歸一化操作,norm到0。
本文和隨機擦除幾乎同時發表,難分高下(不同場景下誰好難說),區別在於在cutout中,擦除矩形區域存在一定概率不完全在原圖像中的。而在Random Erasing中,擦除矩形區域一定在原圖像內。Cutout變相的實現了任意大小的擦除,以及保留更多重要區域。
需要注意的是作者發現cutout區域的大小比形狀重要,所以cutout只要是正方形就行,非常簡單。具體操作是利用固定大小的矩形對圖像進行遮擋,在矩形范圍內,所有的值都被設置為0,或者其他純色值。而且擦除矩形區域存在一定概率不完全在原圖像中的(文中設置為50%)
論文中有一個細節可以看看:作者其實開發了一個早期做法,具體是:在訓練的每個epoch過程中,保存每張圖片對應的最大激活特征圖(以resnet為例,可以是layer4層特征圖),在下一個訓練回合,對每張圖片的最大激活圖進行上采樣到和原圖一樣大,然后使用閾值切分為二值圖,蓋在原圖上再輸入到cnn中進行訓練,有點自適應的意味。但是有個小疑問:訓練的時候不是有數據增強嗎?下一個回合再用前一次增強后的數據有啥用?不太清楚作者的實現細節。如果是驗證模式下進行到是可以。
這種做法效果蠻好的,但是最后發現這種方法和隨機選一個區域遮擋效果差別不大,而且帶來了額外的計算量,得不償失,便舍去。就變成了現在的cutout了。
可能和任務有關吧,按照的理解,早期做法非常make sense,效果居然和cutout一樣,比較奇怪。並且實際上考慮目標檢測和語義分割,應該還需要具體考慮,不能照搬實現。
學習這類論文覺得最重要的是思想,能不能推廣到不同領域上面?是否可以在訓練中自適應改變?是否可以結合特征圖聯合操作?
三.數據增強相關-Hide-and-Seek
論文名稱:Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization and Beyond
論文地址:https://arxiv.org/abs/1811.02545
github地址:https://github.com/kkanshul/Hide-and-Seek
論文摘要
提出了一種通用的數據增強技術Hide-and-Seek,它是對現有數據增強技術的補充,有利於實現各種視覺識別任務。其核心思想是在訓練圖像中隨機地隱藏補丁,以迫使網絡在隱藏最具鑒別能力的內容時尋找其他相關內容。本文方法只需要修改輸入圖像,並且可以與任何網絡一起工作來提高其性能。在測試期間,不需要隱藏任何補丁。與現有的數據增強技術相比,Hide-and-Seek的主要優勢在於它能夠提高弱監督環境下的目標定位精度,因此利用這一任務來激勵該方法。然而,Hide-and-Seek不僅與圖像定位任務相關,而且可以推廣到視頻等其他形式的視覺輸入,以及圖像分類、時間動作定位、語義分割、情感識別、年齡/性別估計、人的再識別等識別任務。在這些視覺識別問題上,進行了大量的實驗來展示隱藏和搜索的優勢。
可以認為是random earsing的推廣。核心思想就是去掉一些區域,使得其他區域也可以識別出物體,增加特征可判別能力。和大部分細粒度論文思想類型,如下所示:
數據增強僅僅用於訓練階段,測試還是整圖,不遮擋,如下所示。
做法是將圖片切分為sxs個網格,每個網格采用一定概率進行遮擋,可以模擬出隨機擦除和cutout效果。
至於隱藏值設置為何值,作者認為比較關鍵,因為可能會改變訓練數據的分布。如果暴力填黑,認為會出現訓練和測試數據分布不一致問題,可能不好,特別是對於第一層卷積而言。作者采用了一些理論計算,最后得到采用整個數據集的均值來填充造成的影響最小(如果采用均值,那么輸入網絡前,數據預處理減掉均值,那其實還是接近0)。