yolo系列詳解--yolov1、yolov2、yolov3

本文轉載自查看原文 2020-01-07 23:06 1087 Object Detection

1.yolo：You Only Look Once: Unified, Real-Time Object Detection

論文地址：https://arxiv.org/pdf/1506.02640.pdf

處理流程：輸入圖片需要縮放到448*448，最后生成一個維度為7*7*30的tensor。

創新點：因為是一階段的網絡，故而運行速度快。

論文的整體框架如下：

對於最后的7*7*30的tensor的意義如下：

將448*448的圖片分割成S*S的網格，每個網格都預測2個bounding boxes(如果物體的重心落在bounding box中，那么此bounding box負責檢測物體)。

等式：7*7*30=SxSx(B*5+C) 其中S=7，B=2，C=20(PASCAL VOC),5是指一個置信度和四個坐標值。

每個bounding box包含四個坐標值(Center_x,Center_y,width,height)和一個置信度(該bounding box內存在對象的概率 * 該bounding box與該對象實際bounding box的IOU)

其中Pr(Object)={0,1}，如果不存在物體，則為0，否則為1。

IOU可參考：https://www.cnblogs.com/AntonioSu/p/12193743.html

具體維度30各值所代表的意義：

2.YOLO9000: Better, Faster, Stronger

論文地址：https://arxiv.org/pdf/1612.08242.pdf

處理流程：兩階段訓練網絡，先classification，后detention。

　　　　classification：先用224*224的圖片預訓練Darknet-19，而后再用448*448的圖片微調網絡Darknet-19。

　　　　detention：每隔10個batches，換一種輸入維度{320,352...,680},而后對darknet-19做如下處理

　　　　　　　　移除最后一個卷積層、avgpooling層以及softmax層，並且新增了三個3*3*1024卷積層，同時增加了一個passthrough層，passthrough
　　　　　　　　對最后一個池化層的輸入做變化，將26*26*512變為13*13*2048做處理，而后與最后一層的13*13*1024拼接在一起，變為13*13*3072。最后通過1*1卷積核
　　　　　　　　變為13*13*125。

創新點：

1.通過聚類的方式找到每個特征點有5個anchor
2.沒使用全連接
3.平滑處理

Darknet-19