一、目標定位

這一小節視頻主要介紹了我們在實現目標定位時標簽該如何定義。

上圖左下角給出了損失函數的計算公式(這里使用的是平方差)

如圖示，加入我們需要定位出圖像中是否有pedestrian，car，motorcycles。注意在這里我們假設圖像中只肯呢個存在這三者中的一種或者都不存在，所以共有四種可能。

\(P_c=1\)表示有三者中的一種
- \(C_1=1\)表示有pedestrian，反之沒有
- \(C_2=1\)表示有car
- \(C_3=1\)表示有motorcycles
\(b_*\)用於標識所識別食物的位置
- \(b_x,b_y\)：表示識別物體的中心坐標
- \(b_w,b_h\)：表示識別物體的寬和高

注意：\(P_c=0\)表示三者都沒有，所以此時\(C_*,b_*\)的值我們並不在乎了。

二、特征點檢測

這一節的內容和上一節感覺很類似，所有就沒有記得很詳細了

三、目標檢測

目標檢測常使用的是滑動窗口技術檢測，即使用一定大小的窗口按照指定的步長對圖像進行遍歷

→

因為圖像中車輛的大小我們是不知道的，所以可以更改窗口大小，從而識別並定位出車輛的位置。

四、卷積的滑動窗口實現

注意：該節視頻的例子和上一節一樣，都是識別圖像中是否有pedestrian，car，motorcycles，background，所以最后輸出y是4個節點

1.全連接層→卷積層

在介紹卷積滑動窗口之前我們首先要知道如何把神經網絡的全連接層轉化成卷積層，下面是使用了全連接層的網絡結構

那么如何將全連接層轉化成卷積層呢？如下圖示

我們可以看到經過Max Pooling之后的數據大小是(5, 5, 16),第一個FC層是400個節點。我們可以使用400個5*5的過濾器進行卷積運算，隨后我們就得到了(1, 1, 400)的矩陣。

第二個FC層也是400個節點，由之前的1*1過濾器的特點，我們可以使用400個1*1的過濾器，也可以得到(1,1,400)的矩陣。至此，我們已經成功將全連接層轉化成了卷積層。

2.卷積滑動窗口實現

目標檢測一節中介紹了滑動窗口。要實現窗口遍歷，那么就需要很大的計算量，看起來似乎可操作性不強。But！這怎么可能難倒哪些newB的大神們呢，他們自然有辦法。

首先我們先看下圖，這個就是上面提到的將全連接層轉化成卷積層的示意圖，只不過畫的看起來更正規一些了2333，但是有個需要提醒的是吳大大為了方便只花了平面圖，就沒有畫出3D的效果了。

下面，假設我們的測試圖大小是16*16，並令滑動窗口大小是14*14的(為了方便理解，下圖用藍色清楚地表明了14*14窗口的大小),步長是2，所以這個測試圖可以被窗口划分成4個部分。隨后和上面執行一樣的操作，最后可以得到(2,2,4)的矩陣，此時我們不難看出測試圖被滑動窗口選取的左上角部分對應的結果也是輸出矩陣的左上角部分，其他3個部分同理。

所以這說明了什么？

說明我們沒有必要用滑動窗口截取一部分，然后帶入卷積網絡運算。相反我們可以整體進行運算，這樣速度就快很多了。

下圖很清楚的展示了卷積滑動窗口的實現。我們可以看到圖片被划分成了64塊

五、Bounding Box預測

上面介紹的滑動窗口方法存在一個問題就是很多情況下滑動窗口並不能很好的切割出車體，如下圖示：

為了解決這個問題，就有了YOLO(you only look once)算法，即只需要計算一次便可確定需要識別物體的位置的大小。

原理如下：

首先將圖像划分成3*3(即9份)，每一份最后由一個向量表示，這個向量在本文最前面介紹過，即\(y=[P_c,b_x,b_y,b_h,b_w,c_1,c_2,c_3]\)

因為有9份，所以最后輸出矩陣大小是(3,3,8),如下圖示：

那么如何構建卷積網絡呢？

輸入矩陣是(100,100,3),然后是Conv，Maxpool層，……，最后只要確保輸出矩陣大小是(3,3,8)即可。

下圖是以右邊的車輛作為示例介紹該車輛所在框的輸出矩陣

很顯然\(P_c=1\),
然后\(b_x,b_y\)的值是右邊車輛的中心點相對於該框的位置,所以它們的值是一定小於1的，我們可以很容易的得到近似值\(b_x=0.4,b_y=0.3\)。
\(b_h,b_w\)的值同理也是車輛的寬高相對於其所在框的比例，但是要注意的是這兩個值是可以大於1的，因為有可能部分車身在框外。但是也可以使用sigmoid函數將值控制在1以內。