一般而言,表情識別系統主要有四個基本部分組成:
1.表情圖像獲取
2.表情圖像預處理
3.表情特征提取
4.表情分類識別
他們對面部表情的研究可大致分為:表情預處理、面部特征提取、情感分類。通常其輸入數據是靜態圖像或視頻序列。
有的面部表情分析方法大致可分為兩類:
典型的基於視覺特征的方法是動態文理識別的方法;
基於幾何特征的方法包括面部成分的形狀和位置特征、面部特征點的位置等。
這兩種方法的區別主要在於特征的提取與描述方法不同。幾何特征通常只考慮特征點的運動,而忽略了皮膚紋理變化提供的豐富信息、;另一方面,基於視覺特征的方法則容易受到光照和個體差異的影響。視覺特征的方法的優勢在於該方法會生成細節信息,獲得更好的識別精度,簡單且性能良好。
CNN(convolutional neural network)是一種端到端(end to end)的模式,是人工神經網絡(artificial neural network, ANN)的一種改進,其靈感來自研究貓的初級視覺皮層:簡單細胞通過接受局部感受野特定邊緣發出來的刺激作為響應,以此作為復雜細胞的輸入。CNN最大的特點是局部連接性以及權值共享性。這使得網絡參數減少,訓練速度更快,且有一定的正則化效果。CNN是一個復雜的神經網絡,損失函數是評價預測值與真實值之間吻合度的一個評估准則,常用的損失函數有Softmax分類器的互熵損失、hinge損失、L2范數損失、L1范數損失。CNN能解決非線性問題的關鍵是激活函數, 通過函數把“激活的神經元的特征”保留並映射出來,常用的激活函數有tanh、sigmoid、softsign、ReLU、LReLU等。為了防止網絡層數過深造成的過擬合現象,增加其泛化能力,CNN一般需要進行正則化操作。常用正則化方法有數據擴增、dropout、L2正則化、dropconnect。另一方面,CNN采用pooling(池化層)操作最大限度的降低網絡復雜度,讓CNN保持一定的局部不變性,從而更加接近動物視覺皮層機制。
深度信念網絡(deep belief network,DBN)基於受限玻爾茲曼機(restricted boltzmannmachine, RBM), 由一層反向前饋傳播網絡和深度RBM組成。RBM模型將前層輸出作為后層輸入,進行多個RBM層疊,而每層RBM都包含一個隱層與可見層,與BM(玻爾茲曼機)不同,RBM並沒有連接每層的神經元,而是將隱層與可見層通過權值雙向連接兩層之間的節點。DBN的網絡結構與人腦結構的認知過程類似,其對輸入信號的提取特征為非監督、逐層抽象提取。DBN是一個從低到高的逐層自主學習過程,具有主動性、准確性的特點。不足是收斂速度慢,容易收斂到局部最優。
深度學習經過幾年的發展,在表情識別領域已取得一定成果,Yu[54]構建一個9層CNNs結構,在最后一層連接層采用softmax分類器將表情分為7類,該模型在SFEW2.0數據集上識別率達到61.29%。Lopes[55]在CNN網絡前加入預處理過程,探索預處理對精度的影響,最終識別率在CK+數據集上達到97.81%,且訓練時間更短。Wang[56]采用softmax訓練CNN模型,用triple損失函數調參,並且運用數據增強手段,將識別率提高2%,該模型對難以區分的類間表情(如生氣和厭惡)表現優良。Zhao[57]融合MLP和DBN,將DBN無監督特征學習的優勢和MLP的分類優勢聯系起來以提高性能。He[38]結合深度學習與傳統機器學習,首先運用LBP/VAR提取初次特征,以初次特征作為DBN的輸入實現分類。Li[58]為了解決DBN忽略圖片局部特征的問題,將CS-LBP與DBN進行融合。深度學習發展至今,各種模型及其變體被提出,基本模型已不能滿足性能需求,結合大量文獻數據,人臉表情識別未來發展方向主要體現在提高網絡深度、混合模型、與傳統機器學習結合、遷移學習、無監督學習等方面,同時移動終端的開發也開始受到關注。
1) 深度學習是數據驅動的,帶有標注的海量數據集是深度學習算法的基石,正因為有ImageNet這樣百萬量級且帶有標簽的數據,才有CNN在ILSVRC等大賽上的表現。但實際上,要構造一個海量且帶有標注的數據庫顯得尤為困難,如何自動給海量無標記數據添加標簽也是一個需要重視的方向。
2) 傳統機器學習算法在小數據樣本分析上占絕對優勢,深度學習算法在小樣本情況下易發生過擬合現象,如何將這兩種現象折衷,創新出一種既能在小數據樣本上表現良好,又能在大數據上表現優異的算法是人臉表情識別研究亟待解決的一個關鍵性問題。
3) 深度學習雖在人臉表情等分類領域具有優良的性能,但目前其理論知識尚不完備,大多數學者都是通過調參的方法去提高識別率,把深度學習當作一個黑匣子使用,如何用理論知識指導實踐,用實踐促進理論知識的理解是研究者需要解決的。
4) 雖然深度學習在訓練好模型之后,識別效率很快,但是在訓練階段是一個漫長的過程,即便采用GPU等硬件加速,對於更深層網絡,更海量的數據下訓練模型,往往需要花費研究者數天或者更長時間的訓練。
5) 表情區分不夠細致,目前大部分表情庫仍以高興、悲傷、驚奇、憤怒、厭惡、恐懼、中性等7種基本表情為主,很少有包含更多細微表情的數據庫,這成為人機交互走向更加智能化道路的一道阻礙。
綜上所述,如何處理與理解深度學習與傳統機器學習的關系,取長補短,是未來人臉表情識別研究的重點與方向。
人臉表情識別未來發展方向主要體現在提高網絡深度、混合模型、與傳統機器學習結合、遷移學習、無監督學習等方面,同時移動終端的開發也開始受到關注。
---------2018/8/7