1.yolo:You Only Look Once: Unified, Real-Time Object Detection
論文地址:https://arxiv.org/pdf/1506.02640.pdf
處理流程:輸入圖片需要縮放到448*448,最后生成一個維度為7*7*30的tensor。
創新點:因為是一階段的網絡,故而運行速度快。
論文的整體框架如下:
對於最后的7*7*30的tensor的意義如下:
將448*448的圖片分割成S*S的網格,每個網格都預測2個bounding boxes(如果物體的重心落在bounding box中,那么此bounding box負責檢測物體)。
等式:7*7*30=SxSx(B*5+C) 其中S=7,B=2,C=20(PASCAL VOC),5是指一個置信度和四個坐標值。
每個bounding box包含四個坐標值(Center_x,Center_y,width,height)和一個置信度(該bounding box內存在對象的概率 * 該bounding box與該對象實際bounding box的IOU)
其中Pr(Object)={0,1},如果不存在物體,則為0,否則為1。
IOU可參考:https://www.cnblogs.com/AntonioSu/p/12193743.html
具體維度30各值所代表的意義:
2.YOLO9000: Better, Faster, Stronger
論文地址:https://arxiv.org/pdf/1612.08242.pdf
處理流程:兩階段訓練網絡,先classification,后detention。
classification:先用224*224的圖片預訓練Darknet-19,而后再用448*448的圖片微調網絡Darknet-19。
detention:每隔10個batches,換一種輸入維度{320,352...,680},而后對darknet-19做如下處理
移除最后一個卷積層、avgpooling層以及softmax層,並且新增了三個3*3*1024卷積層,同時增加了一個passthrough層,passthrough
對最后一個池化層的輸入做變化,將26*26*512變為13*13*2048做處理,而后與最后一層的13*13*1024拼接在一起,變為13*13*3072。最后通過1*1卷積核
變為13*13*125。
創新點:
1.通過聚類的方式找到每個特征點有5個anchor
2.沒使用全連接
3.平滑處理
Darknet-19
最后的13*13*125的解釋:
125=num_anchors *(4+1+num_classes) ,其中 num_anchors=5,num_classes=20(VOC)。
passthrough是為了檢測圖片中的小物體, passthrough層操作方式:
平滑處理:對坐標值加入exp(x)
3.YOLOv3: An Incremental Improvement
論文地址:https://arxiv.org/pdf/1804.02767.pdf
處理流程:先通過Darknet-53處理得到13*13*3*85的特征,而后再上采樣,分別得到26*26*3*85和 52*52*3*85.
創新點
1.detention網絡引入殘差
2.在不同的特征圖上做處理
3.沒用pooling,沒用全連接
Darknet-53
先驗框:
總共有 13*13*3 + 26*26*3 + 52*52*3 = 10647 個預測。每一個預測是一個(4+1+80)=85維向量,這個85維向量包含
邊框坐標(4個數值),邊框置信度(1個數值),對象類別的概率(對於COCO數據集,有80種對象)。