圖像分類、目標檢測、分割是計算機視覺領域的三大任務。
目標檢測的基本思路:同時解決定位(localization) + 識別(Recognition)。 多任務學習,帶有兩個輸出分支。一個分支用於做圖像分類,即全連接+softmax判斷目標類別,和單純圖像分類區別在於這里還另外需要一個“背景”類。另一個分支用於判斷目標位置,即完成回歸任務輸出四個數字標記包圍盒位置(例如中心點橫縱坐標和包圍盒長寬),該分支輸出結果只有在分類分支判斷不為“背景”時才使用。
常見經典的基於深度學習的目標檢測算法如圖所示:
目前目標檢測領域的深度學習方法主要分為兩類:兩階段(Two Stages)的目標檢測算法、一階段(One Stage)目標檢測算法。兩階段(Two Stages):首先由算法(algorithm)生成一系列作為樣本的候選框,再通過卷積神經網絡進行樣本(Sample)分類。常見的算法有R-CNN、Fast R-CNN、Faster R-CNN等等。一階段(One Stage ):不需要產生候選框,直接將目標框定位的問題轉化為回歸(Regression)問題處理(Process)。常見的算法有YOLO、SSD等等。
事實證明,Fast R-CNN算法的其中一個問題是得到候選區域的聚類步驟仍然非常緩慢,所以另一個研究組,任少卿(Shaoqing Ren)、何凱明(Kaiming He)、Ross Girshick和孫劍Jiangxi Sun)提出了更快的R-CNN算法(Faster R-CNN),使用的是卷積神經網絡,而不是更傳統的分割算法來獲得候選區域色塊,結果比Fast R-CNN算法快得多。