目標檢測入門論文YOLOV1精讀以及pytorch源碼復現(yolov1)

本文轉載自查看原文 2021-03-14 22:05 1025 目標檢測/ 論文精讀

結果展示

其中綠線是我繪制的圖像划分網格。

這里的loss是我訓練的 0.77 ，由於損失函數是我自己寫的，所以可能跟大家的不太一樣，這個不重要，重要的是學習思路。

重點提示

yolov1是一個目標檢測的算法，他是一階段的檢測算法。

一階段（one-stage）：檢測物體的同時進行分類。（代表論文：yolov1 - yolov5）

二階段（two-stage）：先檢測出物體，再進行分類。（代表論文：rcnn，fast-rcnn）

重點要理解yolov1的數據特征標注方式。

只有理解了數據特征的標注方式才可以理解他為什么可以起作用。

論文剖析

1、理解VOC數據集的數據形式。

2、從VOC數據集中提取出標注好的數據特征。

3、yolov1的數據組織。

4、yolov1的算法模型。

5、yolov1的准確率評估方式（IOU）。

6、yolov1的損失函數。

理解VOC數據集

首先需要知道我們使用的數據集的形式，因為每一個數據集的特征標注以及組織方式都不同。

我們可以去官網下載voc的數據集，這里使用的是voc2012數據集。

VOC數據集鏡像網站. 下載voc2012的Train/Validation Data (1.9 GB)。

數據集下載之后解壓出來是這樣子：

每個文件夾存放的啥都標注好了，我們這里用不到那么多。

我們只用jpg原圖，以及每個原圖中目標的位置即可。（下邊圖片中畫紅框的兩個文件夾）

但是我們發現，Annotations文件夾中的目標位置信息是存放在xml中，所以我們往下分析一個xml文件看看。

<filename> : 表示這個文件是對應於哪一個 jpg 圖片的。

<size>：表示對應的 jpg 圖片大小。

<object>：就是這個圖片中的目標在圖片中的信息。包括：目標名字，是否難識別，以及目標在整個圖片中的坐標位置。（有幾個 object 就是有幾個目標）

提取目標初始數據

上邊我們分析出每個圖片中有什么目標都是存儲在xml文件中的，所以我們需要將xml文件的目標與類別數據提取出來，以便我們使用。

思路：

1、使用庫 xml.etree.ElementTree 讀取xml格式的文件，從中提取出每一個xml文件中的所有<ojgect>標簽數據（個數就是目標的數量）。
2、將<object>標簽提取出 類別、xmin、ymin、xmax、ymax ，並且將其歸一化為 類別、x、y、w、h。

歸一化就是根據從目標中提取出的 xmin、ymin、xmax、ymax 得到目標的寬高，分別除以整個圖片的寬高。

x：目標的中心位置x坐標。 y：目標的中心位置y坐標。 w：目標的寬度，h：目標的高度。

3、然后將歸一化的數據按照上面的格式，整理為labels文件。

每一個labels文件對應於一個圖片，labels文件中的每一行就是這個圖片中的一個目標的 類別、x、y、w、h 數據（一個圖片有幾個目標，對應的labels文件就有幾行）。

例子：

針對如下xml文件，可以得知：

對應的jpg圖片是 2007_000042.jpg，並且圖片的大小是 500*335 的三色圖（這里的圖片大小就是用來歸一化的）。

含有兩個<object>標簽，所以這個圖片中有兩個目標，並且目標的類別、位置坐標可以根據name、xmin、ymin、xmax、ymax 得到。

<annotation>
	<folder>VOC2012</folder>
	<filename>2007_000042.jpg</filename>
	<source>
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>
		<width>500</width>
		<height>335</height>
		<depth>3</depth>
	</size>
	<segmented>1</segmented>
	<object>
		<name>train</name>
		<pose>Unspecified</pose>
		<truncated>1</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>263</xmin>
			<ymin>32</ymin>
			<xmax>500</xmax>
			<ymax>295</ymax>
		</bndbox>
	</object>
	<object>
		<name>train</name>
		<pose>Unspecified</pose>
		<truncated>1</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>1</xmin>
			<ymin>36</ymin>
			<xmax>235</xmax>
			<ymax>299</ymax>
		</bndbox>
	</object>
</annotation>