特征提取和分類是典型計算機視覺系統的兩個關鍵階段。視覺系統的准確性、穩健性和效率很大程度上取決於圖像特征和分類器的質量。特征提取方法可以分為兩個不同的類別,即基於手工的方法和基於特征學習的方法。分類器可以分為兩組,即淺層模型和深層模型。
特征是任何獨特的方面或特性,用於解決與特定應用相關的計算任務。n個特征的組合可以表示為n維向量,稱為特征向量。特征向量的質量取決於其區分不同類別的圖像樣本的能力。良好的特征應該是信息豐富的,不受噪聲和一系列變換的影響,並且計算快速。
分類是現代計算機視覺和模式識別的核心。分類器的任務是使用特征向量對圖像或感興趣區域(ROI)划分類別。分類任務的困難程度取決於來自相同類別圖像的特征值的可變性,以及相對於來自不同類別圖像的特征值的差異性。但是,由於噪聲(以陰影、遮擋、透視扭曲等形式),異常值(例如,“建築”類別的圖像可能包含人),模糊性(例如 ,相同的矩形形狀可以對應於桌子或建築物窗戶),缺少標簽,僅有小訓練樣本可用,以及訓練數據樣本中的正負覆蓋的不平衡。因此,設計分類器做出決策是一項具有挑戰性的任務。
傳統特征描述符:傳統(手工設計)特征提取方法分為兩大類:全局和局部。全局特征提取方法定義了一組有效描述整個圖像的全局特征,因此,形狀細節被忽略。全局特征也不適用於識別部分遮擋的對象。另一方面,局部特征提取方法提取關鍵點周圍的局部區域,因此可以更好的處理遮擋。下面介紹一些局部特征提取方法。
(1)HOG描述符——通過邊緣方向的直方圖來描述圖像內的對象外觀和形狀。實現分為4個步驟:
1.梯度計算。在圖像的水平和垂直方向上,執行一維中心離散微分模板。
2.單元方向直方圖。單元內的每個像素,基於該像素處梯度的模對每一個梯度方向區間投加權票。
3.描述符塊。為了處理光照和對比度的變化,通過將單元組合在一起形成的更大的空間上相連的塊,局部地歸一化梯度強度。HOG描述符是來自所有區域內的、歸一化的單元直方圖部件的向量。
4.塊的歸一化。可以通過L2范數或者L1范數進行歸一化。
(2)SIFT——尺度不變特征變換
SIFT提供了一組對象的特征,這些特征對於對象縮放和旋轉是健壯的。分為以下4個步驟:
1.尺度空間的極值偵測。SIFT使用高斯差分(DoG),在所有尺度和圖像位置上搜索DoG圖像以尋求局部極值。
2.關鍵點精確定位。此步驟通過查找具有低對比度或在邊緣上局部性較弱的那些點,從潛在關鍵點列表中移除不穩定點。
3.方向定位。為了實現圖像旋轉的不變性,基於其局部圖像屬性為每個關鍵點分配一個不變的方向。然后可以相對於該方向表示關鍵點描述符。
4.關鍵點描述符
SIFT數學思想復雜,需要多年的研究。
(3)SURF——加速健壯特征
SURF是SIFT的加速版。在SIFT中,高斯拉普拉斯算子用DoG近似,以構造尺度空間。SURF通過使用盒式濾波器估算LoG來加速此過程。
傳統的手工工程特征的局限性
計算機視覺的進步是基於手工工程特征的。然而,特征工程師困難的、耗時的,並且需要關於問題領域的專業知識。手工工程特征的另一個缺點是它們在信息方面太稀疏,無法從圖像中捕獲。使用諸如深度神經網絡的自動特征學習算法可以解決所有這些問題。