1.圖像識別概述
(1)圖像識別是計算機視覺中最基礎的一項任務,目的是在圖像或視頻序列中找到給定的物體,或者是對場景的屬性進行判斷。
(2)要對圖像中的物體進行識別,首先需要對物體賦予合適的表示,使得物體表示對於圖像變化(視角、光照、遮擋、尺度、形變、物體聚集等)有較強的不變性。
(3)圖像和目標識別有着廣泛的應用,例如車牌識別、條形碼識別、指紋識別、人臉識別等。
2.發展
(1)最早期的識別方法采用配准的方式
1965-late 1980s: alignment, geometric primitives
配准(registration):是指同一區域內以不同成像手段所獲得的不同圖像圖形的地理坐標的匹配。包括幾何糾正、投影變換與統一比例尺三方面的處理。目的是擬合一個合適的幾何變換,建立兩張圖像間特征的對應關系。
主要針對由於相機位置、光照變化和相機參數等導致的圖像的幾何變化。利用目標物體的幾何表示,尋找圖像中合適的配准,可以找到圖像中的目標物體。
缺點:這種方法只能尋找圖像中簡單的幾何目標,對於一般的物體,其幾何表示通常是復雜的,采用幾何表示和配准對於一般物體類別不夠實用。
(2)基於圖像外觀的方法,利用經驗模型表征圖像
Early 1990s: invariants, appearance-based methods
最經典的是1991年提出的特征臉方法(Eigenface),
主要思想是利用大量人臉圖像構建人臉的表示空間(利用主成分分析),每個主成分是一張標准臉,每張具體的人臉圖像可視為這些標准臉的線性組合。
另外,通過構建圖像的顏色直方圖,以及外觀流形等方法也是基於圖像外觀的代表方法。
缺點:基於整體圖像外觀方法對於簡單的表征模式有效,但是對於物體聚集、遮擋和光照變化等不夠魯棒。
(3)圖像特征表示物體
Mid-late 1990s: sliding window approaches
Late 1990s: feature-based methods
Early 2000s: parts-and-shape models
隨着圖像特征點表示的提出,利用圖像特征(例如SIFT等特征)表示物體也成為代表性方法。
通過結合圖像局部特征、特征點空間關系和機器學習中的分類方法,可以有效對目標物體進行分類和識別。
(4)“bag of features”(特征詞袋)方法
2003 – present: bags of features
更進一步,可將目標物體分解成若干個部分,通過判斷每個部分之間的外觀表示,以及每個部分之間的位置關系,來判定被檢測的是否是目標物體。
這種基於物體部分和結構的表示,可進一步演化為“bag of features”(特征詞袋)方法,將物體的每個部分看作是物體紋理,隨機分在若干個詞袋中。
物體的表示為每個詞袋中對應的紋理出現的頻率。基於詞袋的表示在圖像檢索中是比較有代表性的方法。
(5)目前趨勢
①Present trends: combination of local and global methods, modeling context, integrating recognition and segmentation
近年來目標識別的趨勢是結合局部和全局方法,建模圖像上下文表示,結合識別和分割方法。
3.模式識別中的問題
圖像和物體識別基於上面所說的圖像和物體的合適表征,需要利用模式識別方法對物體和場景所屬類別進行推斷。
(1)統計角度
①從統計角度建模,可將該問題表示為一個最大后驗概率估計問題,即給定圖像,最大化目標類別的后驗(posterior)概率。由貝葉斯法則,可將該問題轉化為似然(likelihood)和模型先驗(prior)。
②由此分出兩個解決問題的分支:判別式方法(直接建模后驗概率)和生成式方法(建模似然和模型先驗)。判別式方法直接學習分類結果,高效且通常有更好精度,但是模型可解釋性較弱;生成式模型有較強的模型可解釋性。
4.數據集
(1)按照數據集對識別方法分類
根據訓練集數據標注使用的程度,分為監督學習(大量利用標注框、物體類別等標注好的數據)、弱監督學習(僅使用部分標注的訓練數據,例如只使用圖像類別標注)和無監督學習(訓練數據中不含任何標注信息)。
(2)標注信息
標注信息與任務相關,不同的任務有不同標注信息,
eg:物體檢測和識別任務,標注信息包括物體類別信息(某種物體是否在圖像中存在,是否有與目標物體有較強關聯的背景)和定位/檢測信息(目標物體在圖像中的位置,通常是bounding box或像素級標注)。
(3)目標檢測代表性的數據集
目標檢測和識別有幾個代表性的數據集,早期的數據圖像數量和類別數較少,已滿足不了目前機器學習和深度學習算法訓練的需求。
目前的訓練數據集,以ImageNet和MSCOCO等數據集為代表,在圖像數據、目標類別數量大幅增長的同時,也注重同一類別數據的多樣性,使得訓練數據能更好覆蓋真實場景,提高識別算法在實際應用中的有效性。