自動人臉識別基本原理


自動人臉識別基本原理

 

人臉識別經過近 40 年的發展,取得了很大的發展,涌現出了大量的識別算法。這些算法的涉及面非常廣泛,包括模式識別、圖像處理、計算機視覺、人工智能、統計學習、神經網絡、小波分析、子空間理論和流形學習等眾多學科。所以很難用一個統一的標准對這些算法進行分類。根據輸入數據形式的不同可分為基於靜態圖像的人臉識別和基於視頻圖像的人臉識別。因為基於靜態圖像的人臉識別算法同樣適用於基於視頻圖像的人臉識別,所以只有那些使用了時間信息的識別算法才屬於基於視頻圖像的人臉識別算法。接下來分別介紹兩類人臉識別算法中的一些重要的算法。

特征臉

   特征臉方法利用主分量分析進行降維和提取特征。主分量分析是一種應用十分廣泛的數據降維技術,該方法選擇與原數據協方差矩陣前幾個最大特征值對應的特征向量構成一組基,以達到最佳表征原數據的目的。因為由主分量分析提取的特征向量返回成圖像時,看上去仍像人臉,所以這些特征向量被稱為“特征臉”。

   在人臉識別中,由一組特征臉基圖象張成一個特征臉子空間,任何一幅人臉圖象(減去平均人臉后)都可投影到該子空間,得到一個權值向量。計算此向量和訓練集中每個人的權值向量之間的歐式距離,取最小距離所對應的人臉圖像的身份作為測試人臉圖像的身份。

   下圖給出了主分量分析的應用例子。圖中最左邊的為平均臉,其他地為對應 7 個最大特征值的特征向量。

   主分量分析是一種無監督學習方法,主分量是指向數據能量分布最大的軸線方向,因此可以從最小均方誤差意義下對數據進行最優的表達。但是就分類任務而言,由主分量分析得到的特征卻不能保證可以將各個類別最好地區分開來。

   線性鑒別分析是一種著名的模式識別方法,通過將樣本線性變換到一個新的空間,使樣本的類內散布程度達到最小,同時類間散布程度達到最大,即著名的 Fisher 准則。

標准特征臉
同一個人不同圖像之間的的特征臉
不同人的圖像之間的特征臉

彈性圖匹配

   Lades 等人針對畸變不變性的物體識別問題提出了一種基於動態連接結構的彈性圖匹配方法,並將其應用於人臉識別。所有人臉圖像都有相似的拓撲結構。人臉都可表示成圖,圖中的節點是一些基准點(如眼睛,鼻尖等),圖中的邊是這些基准點之間的連線。

   每個節點包含 40 個 Gabor 小波(一種數字信號變換方法)系數,包括相位和幅度,這些系數合起來稱為一個 Jet ,這些小波系數是原始圖像和一組具有 5 個頻率、 8 個方向的 Gabor 小波卷積(一種數字信號處理算子)得到的。這樣每幅圖就像被貼了標簽一樣,其中的點被 Jets 標定,邊被點之間的距離標定。所以一張人臉的幾何形狀就被編碼為圖中的邊,而灰度值的分布被編碼為圖中的節點。如下圖所示:

 

彈性圖匹配方法中人臉的彈性束圖表示

   為了識別一張新的人臉,需要從該人臉中找到基准點,提取出一個人臉圖,這可用彈性圖匹配得到。彈性圖匹配的目的是在新的人臉中找到基准點,並且提取出一幅圖,這幅圖和現有的人臉束圖之間的相似度最大。經過彈性圖匹配后,新的人臉的圖就被提取出來了,此圖就表征了新的人臉,用它作為特征進行識別。進行識別時,計算測試人臉和現有人臉束圖中的所有人臉之間的相似度,相似度最大的人臉的身份即為測試人臉的身份。

   由於該方法利用 Gabor 小波變換來描述面部特征點的局部信息,因此受光照影響較小。此外,在彈性匹配的過程中,網格的形狀隨着特征點的搜索而不斷變化,因此對姿態的變化也具有一定的自適應性。該方法的主要缺點是搜索過程中代價函數優化的計算量巨大,因而造成識別速度較慢,導致該方法的實用性不強。

3D 形態模型

   人臉本質上是 3D 空間中的一個表面,所以原則上用 3D 模型能更好地表征人臉,特別是處理人臉的各種變化,如姿勢、光照等。 Blanz 等人提出了一種基於 3D 形態模型的方法,該方法將形狀和紋理用模型參數編碼,同時提出了一個能從單張人臉圖像還原模型參數的算法。形狀和紋理參數可用來進行人臉的識別。為了處理由於這些參數導致的圖像之間差異的極端情形,通常是預先產生一個通用的模型。而進行圖像分析時,給定一張新的圖像,一般的做法是用通用模型去擬合新的圖像,從而根據模型來參數化新的圖像。

基於視頻圖像的識別算法

   一個典型的基於視頻圖像的人臉識別系統一般都是自動檢測人臉區域,從視頻中提取特征,最后如果人臉存在則識別出人臉的身份。在視頻監控、信息安全和出入控制等應用中,基於視頻的人臉識別是一個非常重要的問題,也是目前人臉識別的一個熱點和難點。基於視頻比基於靜態圖像更具優越性,因為 Bruce 等人和 Knight 等人已證明,當人臉被求反或倒轉時,運動信息有助於(熟悉的)人臉的識別。雖然視頻人臉識別是基於靜態圖像的人臉識別的直接擴展,但一般認為視頻人臉識別算法需要同時用到空間和時間信息,這類方法直到近幾年才開始受到重視並需要進一步的研究和發展。目前視頻人臉識別還有很多困難和挑戰,具體來說有以下幾種:

   視頻圖像質量比較差:視頻圖像一般是在戶外(或室內,但是采集條件比較差)獲取的,通常沒有用戶的配合,所以視頻人臉圖像經常會有很大的光照和姿態變化。另外還可能會有遮擋和偽裝。

   人臉圖像比較小:同樣,由於采集條件比較差,視頻人臉圖像一般會比基於靜態圖像的人臉識別系統的預設尺寸小。小尺寸的圖像不但會影響識別算法的性能,而且還會影響人臉檢測,分割和關鍵點定位的精度,這必然會導致整個人臉識別系統性能的下降。

   視頻人臉識別起源於基於靜態圖像的人臉識別,即識別系統自動的檢測和分割出人臉,然后用基於靜態圖像的識別方法進行識別。對這類方法的一個提高是加入了人臉跟蹤。在這類系統中,通過利用姿態和從視頻中估計到的深度信息合成一個虛擬的正面人臉。這個階段的另外一個能提高識別率的方法是利用視頻中充裕的幀圖像,基於每幀圖像的識別結果,使用 ” 投票 ” 機制。投票方法可以是確定的,但是概率投票方法一般來說更好。投票機制的一個缺點是計算結果的代價比較昂貴。

   視頻人臉識別的第二個發展階段是利用多模態信息。因為人類一般會利用多種信息識別人的身份,所以一個多模態系統將比只利用人臉的識別系統性能更好。更重要的是利用多模態信息提供了一種方法,它能全面解決那些只靠人臉無法識別的任務。例如,在一個完全沒有配合的環境(比如搶劫),歹徒的臉一般是蒙着的,這時唯一能進行無人臉識別的方法就是分析歹徒軀體的運動特性。除了指紋,人臉和聲音是最常用於身份識別的信息。它們已經被用於很多多模態身份識別系統。 1997 年以來,每兩年,就會召開一個專門關於基於視頻和語音身份識別的國際會議。

   最近幾年,視頻人臉識別進入第三個發展階段,這個階段方法的特點是同時采用空間信息(在每幀中)和時間信息(比如人臉特征的運動軌跡)。區別於概率投票方法的一個很大的不同之處在於,此類方法是在時間和空間的聯合空間中描述人臉和識別人臉的。

   視頻圖像的一個非常重要的特性是它的時間連續性,以及由此產生的人臉信息的不確定性。在人臉跟蹤和識別中利用時間信息是視頻人臉識別算法和基於靜態圖像的人臉識別算法的最大區別。目前這類算法大致可分為兩類:

1、 跟蹤 - 然后 - 識別,這類方法首先檢測出人臉,然后跟蹤人臉特征隨時間的變化。當捕捉到一幀符合一定標准(大小,姿勢)的圖像時,用基於靜態圖像的人臉識別算法進行識別。這類方法中跟蹤和識別是單獨進行的,時間信息只在跟蹤階段用到。識別還是采用基於靜態圖像的方法,沒用到時間信息。

2、 跟蹤 - 且 - 識別,這類方法中,人臉跟蹤和識別是同時進行的,時間信息在跟蹤階段和識別階段都用到。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM