一、人臉表情識別技術目前主要的應用領域包括人機交互、安全、機器人制造、醫療、通信和汽車領域等
二、 1971 年,心理學家 Ekman 與 Friesen 的研究最早提出人類有 六種主要情感 ,每種情感以唯一的表情來反映人的一種獨特的心理活動。這六種情感被稱為基本情感,由 憤怒( anger )、高興 (happiness) 、悲傷 (sadness) 、驚訝 (surprise) 、厭惡 (disgust) 和恐懼 (fear) 組成
人臉面部表情運動的描述方法 --- 人臉運動編碼系統FACS (Facial Action Coding System) ,根據面部肌肉的類型和運動特征定義了 基本形變單元 AU ( Action Unit ),人臉面部的各種表情最終能分解對應到各個 AU 上來,分析表情特征信息,就是分析面部 AU 的變化情況
FACS 有兩個主要弱點 : 1. 運動單元是純粹的 局部化 的空間模板; 2. 沒有時間描述信息 ,只是一個啟發式信息
三、 人臉表情識別的過程和方法
1、表情庫的建立: 目前,研究中比較常用的表情庫主要有 : 美國 CMU 機器人研究所和心理學系共同建立的 Cohn-Kanade AU-Coded Facial Expression Image Database( 簡稱 CKACFEID) 人臉表情數據庫 ; 日本 ATR 建立的 日本女性表情數據庫 (JAFFE) ,它是研究亞洲人表情的重要測試庫
2、表情識別:
(1)圖像獲取
:
通過攝像頭等圖像捕捉工具獲取
靜態圖像或動態圖像序列
。
(2)圖像預處理
:
圖像的大小和灰度的
歸一化
,頭部姿態的矯正,圖像分割等。
è
目的:
改善圖像質量,消除噪聲,統一圖像灰度值及尺寸,為后序特征提取和分類識別打好基礎
主要工作
è
人臉表情識別子區域的分割以及表情圖像的歸一化處理
(
尺度歸一和灰度歸一
)
(3)特征提取:
將點陣轉化成更高級別圖像表述
—
如形狀、運動、顏色、紋理、空間結構等,
在盡可能保證穩定性和識別率的前提下,對龐大的圖像數據進行
降維處理
。
è 特征提取的主要方法有:提取幾何特征、統計特征、頻率域特征和運動特征等
1)采用幾何特征進行特征提取 主要是對 人臉表情的顯著特征 , 如眼睛、眉毛、嘴巴等的位置變化進行定位、測量 , 確定其大小、距離、形狀及相互比例等特征 , 進行表情識別
優點:減少了輸入數據量
缺點:丟失了一些重要的識別和分類信息,結果的精確性不高
2)基於整體統計特征的方法 主要強調 盡可能多的保留原始人臉表情圖像中的信息 , 並允許分類器發現表情圖像中相關特征 , 通過對整幅人臉表情圖像進行變換 , 獲取特征進行識別。
主要方法:PCA和ICA(獨立主元分析)
PCAè 用 一個 正交維數空間 來說明數據變化的主要方向 優點:具有較好的可重建性 缺點:可分性較差
ICA è 可以獲取數據的獨立成份,具有很好的可分性
基於圖像整體統計特征的提取方法缺點: 外來因素的干擾(光照、角度、復雜背景等) 將導致識別率下降
3)基於頻率域特征提取: 是將圖像從 空間域 轉換到 頻率域 提取其特征(較低層次的特征)
主要方法:Gabor小波變換
小波變換能夠通過 定義不同的核頻率、帶寬和方向 對圖像進行 多分辨率分析 ,能有效提取 不同方向不同細節程度 的圖像特征並相對穩定,但作為低層次的特征,不易直接用於匹配和識別,常與 ANN 或 SVM 分類器 結合使用,提高表情識別的准確率。
4)基於運動特征的提取: 提取動態圖像序列的運動特征(今后研究的重點)
主要方法:光流法
光流 是指 亮度模式引起的表觀運動 ,是景物中可見點的 三維速度矢量 在成像平面上的 投影, 它表示景物表面上的點在圖像中位置的 瞬時變化 ,同時光流場攜帶了有關運動和結構的豐富信息
光流模型 是處理運動圖像的有效方法,其基本思想是將 運動圖像函數 f (x, y,t) 作為基本函數,根據 圖像強度守恆原理 建立 光流約束方程 ,通過求解約束方程,計算 運動參數 。
優點:反映了表情變化的實質,受光照不均性影響較小
缺點:計算量大
(4)分類判別:包括設計和分類決策
在表情識別的分類器設計和選擇階段,主要有以下方法: 用線性分類器、神經網絡分類器、支持向量機、隱馬爾可夫模型 等分類識別方法
1) 線性分類器 :假設不同類別的模式空間線性可分,引起可分的主要原因是不同表情之間的差異。
2) 神經網絡分類器: 人工神經網絡 (Artificial Neural Network,ANN) 是一種模擬人腦神經元細胞的網絡結構,它是由大量簡單的基本元件 — 神經元,相互連接成的 自適應非線性動態系統 。將人臉特征的 坐標位置 和其相應的 灰度值 作為神經網絡的輸入, ANN 可以提供很難想象的復雜的類間分界面。
神經網絡分類器主要有 : 多層感知器、 BP 網、 RBF 網
缺點:需要大量的訓練樣本和訓練時間,不能滿足實時處理要求
3) 支持向量機(SVM)分類算法: 泛化能力很強 、 解決小樣本、非線性及高維模式識別問題方面表 、 新的研究熱點
基本思想: 對於非線性可分樣本,首先通過 非線性變換 將 輸入空間 變換到一個 高維空間 ,然后在這個新空間中求取 最優線性分界面 。這種非線性變換通過定義適當的 內積函數 實現,常用的三種內積函數為 : 多項式內積函數、徑向基內積函數、 Sigmoid 內積函數
4) 隱馬爾可夫模型(Hidden Markov Models, HMM):特點: 統計模型、健壯的數學結構 ,適用於 動態過程時間序列建模 ,具有強大的 模式分類能力 ,理論上可處理任意長度的時序,應用范圍非常廣泛。
優點: 運用 HMM 方法能夠比較精確的描繪 表情的變化本質和動態性能
5) 其他方法:
基於 人臉物理模型 的識別方法,將人臉圖像建模為可變形的 3D 網格表面 ,把空間和灰度放在一個 3D 空間中同時考慮。
基於模型圖像編碼的方法是使用 遺傳算法 來編碼、識別與合成各種不同的表情
四、研究展望
( 1 )魯棒性有待提高:
外界因素(主要是 頭部偏轉 及 光線變化 的干擾)
采用 多攝像頭技術、色彩補償技術 予以解決,有一定效果,但並不理想
( 2 )表情識別計算量有待降低 è 確保實時性的要求
( 3 )加強多信息技術的融合
面部表情不是唯一的情感表現方式,綜合 語音語調、脈搏、體溫 等多方面信息來更准確地推測人的內心情感,將是表情識別技術需要考慮的問題