一、人脸表情识别技术目前主要的应用领域包括人机交互、安全、机器人制造、医疗、通信和汽车领域等
二、 1971 年,心理学家 Ekman 与 Friesen 的研究最早提出人类有 六种主要情感 ,每种情感以唯一的表情来反映人的一种独特的心理活动。这六种情感被称为基本情感,由 愤怒( anger )、高兴 (happiness) 、悲伤 (sadness) 、惊讶 (surprise) 、厌恶 (disgust) 和恐惧 (fear) 组成
人脸面部表情运动的描述方法 --- 人脸运动编码系统FACS (Facial Action Coding System) ,根据面部肌肉的类型和运动特征定义了 基本形变单元 AU ( Action Unit ),人脸面部的各种表情最终能分解对应到各个 AU 上来,分析表情特征信息,就是分析面部 AU 的变化情况
FACS 有两个主要弱点 : 1. 运动单元是纯粹的 局部化 的空间模板; 2. 没有时间描述信息 ,只是一个启发式信息
三、 人脸表情识别的过程和方法
1、表情库的建立: 目前,研究中比较常用的表情库主要有 : 美国 CMU 机器人研究所和心理学系共同建立的 Cohn-Kanade AU-Coded Facial Expression Image Database( 简称 CKACFEID) 人脸表情数据库 ; 日本 ATR 建立的 日本女性表情数据库 (JAFFE) ,它是研究亚洲人表情的重要测试库
2、表情识别:
(1)图像获取
:
通过摄像头等图像捕捉工具获取
静态图像或动态图像序列
。
(2)图像预处理
:
图像的大小和灰度的
归一化
,头部姿态的矫正,图像分割等。
è
目的:
改善图像质量,消除噪声,统一图像灰度值及尺寸,为后序特征提取和分类识别打好基础
主要工作
è
人脸表情识别子区域的分割以及表情图像的归一化处理
(
尺度归一和灰度归一
)
(3)特征提取:
将点阵转化成更高级别图像表述
—
如形状、运动、颜色、纹理、空间结构等,
在尽可能保证稳定性和识别率的前提下,对庞大的图像数据进行
降维处理
。
è 特征提取的主要方法有:提取几何特征、统计特征、频率域特征和运动特征等
1)采用几何特征进行特征提取 主要是对 人脸表情的显著特征 , 如眼睛、眉毛、嘴巴等的位置变化进行定位、测量 , 确定其大小、距离、形状及相互比例等特征 , 进行表情识别
优点:减少了输入数据量
缺点:丢失了一些重要的识别和分类信息,结果的精确性不高
2)基于整体统计特征的方法 主要强调 尽可能多的保留原始人脸表情图像中的信息 , 并允许分类器发现表情图像中相关特征 , 通过对整幅人脸表情图像进行变换 , 获取特征进行识别。
主要方法:PCA和ICA(独立主元分析)
PCAè 用 一个 正交维数空间 来说明数据变化的主要方向 优点:具有较好的可重建性 缺点:可分性较差
ICA è 可以获取数据的独立成份,具有很好的可分性
基于图像整体统计特征的提取方法缺点: 外来因素的干扰(光照、角度、复杂背景等) 将导致识别率下降
3)基于频率域特征提取: 是将图像从 空间域 转换到 频率域 提取其特征(较低层次的特征)
主要方法:Gabor小波变换
小波变换能够通过 定义不同的核频率、带宽和方向 对图像进行 多分辨率分析 ,能有效提取 不同方向不同细节程度 的图像特征并相对稳定,但作为低层次的特征,不易直接用于匹配和识别,常与 ANN 或 SVM 分类器 结合使用,提高表情识别的准确率。
4)基于运动特征的提取: 提取动态图像序列的运动特征(今后研究的重点)
主要方法:光流法
光流 是指 亮度模式引起的表观运动 ,是景物中可见点的 三维速度矢量 在成像平面上的 投影, 它表示景物表面上的点在图像中位置的 瞬时变化 ,同时光流场携带了有关运动和结构的丰富信息
光流模型 是处理运动图像的有效方法,其基本思想是将 运动图像函数 f (x, y,t) 作为基本函数,根据 图像强度守恒原理 建立 光流约束方程 ,通过求解约束方程,计算 运动参数 。
优点:反映了表情变化的实质,受光照不均性影响较小
缺点:计算量大
(4)分类判别:包括设计和分类决策
在表情识别的分类器设计和选择阶段,主要有以下方法: 用线性分类器、神经网络分类器、支持向量机、隐马尔可夫模型 等分类识别方法
1) 线性分类器 :假设不同类别的模式空间线性可分,引起可分的主要原因是不同表情之间的差异。
2) 神经网络分类器: 人工神经网络 (Artificial Neural Network,ANN) 是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件 — 神经元,相互连接成的 自适应非线性动态系统 。将人脸特征的 坐标位置 和其相应的 灰度值 作为神经网络的输入, ANN 可以提供很难想象的复杂的类间分界面。
神经网络分类器主要有 : 多层感知器、 BP 网、 RBF 网
缺点:需要大量的训练样本和训练时间,不能满足实时处理要求
3) 支持向量机(SVM)分类算法: 泛化能力很强 、 解决小样本、非线性及高维模式识别问题方面表 、 新的研究热点
基本思想: 对于非线性可分样本,首先通过 非线性变换 将 输入空间 变换到一个 高维空间 ,然后在这个新空间中求取 最优线性分界面 。这种非线性变换通过定义适当的 内积函数 实现,常用的三种内积函数为 : 多项式内积函数、径向基内积函数、 Sigmoid 内积函数
4) 隐马尔可夫模型(Hidden Markov Models, HMM):特点: 统计模型、健壮的数学结构 ,适用于 动态过程时间序列建模 ,具有强大的 模式分类能力 ,理论上可处理任意长度的时序,应用范围非常广泛。
优点: 运用 HMM 方法能够比较精确的描绘 表情的变化本质和动态性能
5) 其他方法:
基于 人脸物理模型 的识别方法,将人脸图像建模为可变形的 3D 网格表面 ,把空间和灰度放在一个 3D 空间中同时考虑。
基于模型图像编码的方法是使用 遗传算法 来编码、识别与合成各种不同的表情
四、研究展望
( 1 )鲁棒性有待提高:
外界因素(主要是 头部偏转 及 光线变化 的干扰)
采用 多摄像头技术、色彩补偿技术 予以解决,有一定效果,但并不理想
( 2 )表情识别计算量有待降低 è 确保实时性的要求
( 3 )加强多信息技术的融合
面部表情不是唯一的情感表现方式,综合 语音语调、脉搏、体温 等多方面信息来更准确地推测人的内心情感,将是表情识别技术需要考虑的问题