引言
YOLOv3發布了,但是正如作者所說,這僅僅是他們近一年的一個工作報告(TECH REPORT),不算是一個完整的paper,因為他們實際上是把其它論文的一些工作在YOLO上嘗試了一下。相比YOLOv2,我覺得YOLOv3最大的變化包括兩點:使用殘差模型和采用FPN架構。YOLOv3的特征提取器是一個殘差模型,因為包含53個卷積層,所以稱為Darknet-53,從網絡結構上看,相比Darknet-19網絡使用了殘差單元,所以可以構建得更深。另外一個點是采用FPN架構(Feature Pyramid Networks for Object Detection)來實現多尺度檢測。YOLOv3采用了3個尺度的特征圖(當輸入為416 x 416時):(13 x 13), (26 x 26),(52 x 52) ,VOC數據集上的YOLOv3網絡結構如圖15所示,其中紅色部分為各個尺度特征圖的檢測結果。YOLOv3每個位置使用3個先驗框,所以使用k-means得到9個先驗框,並將其划分到3個尺度特征圖上,尺度更大的特征圖使用更小的先驗框,和SSD類似。
論文地址:YOLOv3: An Incremental Improvement.
YOLOv3與其它檢測模型的對比如下圖所示,可以看到在速度上YOLOv3完勝其它方法,雖然AP值並不是最好的(如果比較AP-0.5,YOLOv3優勢更明顯)。
成功的Trick(創新點)
- 考慮到檢測物體的重疊情況,用多標簽的方式替代了之前softmax單標簽方式;
- 骨干架構使用了更為有效的殘差網絡,網絡深度也更深;
- 多尺度特征使用的是FPN的思想;
- 錨點聚類成了9類。
具體詳細的可以參考:
個人覺得在看一些好的論文,可以在一些大佬的基礎上進行學習,並思考這些觀點是否是正確的,這樣有利於更快地更容易地學習經典論文里面的思想。