面部殘余表情學習表情識別方法(略去了實驗)
摘要:
一個人的人臉表情是由表情和中性臉組成。在這篇文章中,我們提出通過識別面部表情通過提取表情組成部分的信息通過表情元素濾除的殘余表情識別算法(DERL)。首先,通過cGAN訓練一個生成模型。這個模型對於任何輸入的人臉圖片生成大致相當的中性臉。我們把它叫做de-expression是因為這個表情被這個生成模型篩選;然而,表情信息依舊在中間層記錄。給定中性臉,不像以前使用像素級或者特征級的不同去識別表情,我們的新方法學習生成模型的中間層殘留的殘余表情。這個樣的殘留表情是重要的,因為它包含任何輸入表情圖片沉淀在生成模型的表情成分。七種公開的面部表情數據集在我們的試驗中使用。兩個數據集作為預訓練,在CK+, Oulu-CASIA, MMI, BU-3DFE, and BP4D+.五個數據集上進行了評估。實驗結果闡述了我們提出方法的優越性。
引言:
人臉表情識別的研究進行在各種變化的圖片條件下,包括各種各樣的頭部姿勢,光照條件,分辨率和隱藏。盡管在提高表情分類上取得了重大意義的突破,當前的主要挑戰來自個體差異的巨大變化,例如:年齡,性別,種族背景和個人差異。不同的人由於不同的風格和不同的表情表達方式會展現出不同的表情。只有最近的論文工作開始着手這個方面的工作,把個人性格種族年齡等考慮在人臉表情分析中。 研究表明,人類有能力去識別面部表情通過比較表情臉和中性臉。換句話說,一個人臉表情可以用表情和中性臉組成。到現在,許多現存的工作利用圖片差異和特征差異對於識別圖片和中性圖片去識別面部表情。然而,這個假定是中性臉是獲得的。事實是,中性臉可能不能經常獲得。為了減緩這個問題,這是一個要求取獲得一個中性表情生成器在給定的表情輸入上。生成對抗模型有能力取解決這個問題。為了訓練一個生成模型,一個生成對抗框架利用其他的深度模型去(辨別器)和生成模型對抗而不是為這個生成器定義一個常用的損失函數。這個辨別器被設計用來區分采樣來自生成的的訓練數據;而發生器學會輸出最大程度混淆鑒別器的樣本。一個基礎的GAN擴展是條件GAN,它能夠通過額外的條件變化來學習不同的上下文信息。現有的工作將CNN和cGAN結合起來用於許多應用,包括facegeneration [7],邊緣地圖的對象重建[11]和對象屬性操作[24]。
在這篇文章中,我們提出了一種新的方法叫做殘余表情學習去學習面部表情通過提取表情殘余手段。如圖一所示,給定一個致力於面部表情的人臉,他的大致的中性表情被訓練好的生成模型產生。經過這個步驟,當表達組件被移除時,主題的身份信息保持不變。我們把它叫做殘余表情信息。盡管帶有表達式的輸入圖像被“標准化”為中性表達式作為輸出,但被過濾出來的表情成分仍然沉淀在生成模型中。換句話說,表情信息,在殘余過程中表情信息被記錄在生成器中。這樣的沉淀是表情元素的殘留。這是精確的表情成分我們想要在表情分類中使用。
相比於之前的對輸入表情圖片和中性圖片用像素差異或特征水平差異的方法,我們提出的DERL框架學習殘余在生成模型中的殘余表情元素,試圖去緩和個體特征的影響並提高面部表情識別能力。這項工作的貢獻有兩方面:
1、我們提出了一種新奇的方法去學習表情通過表情元素。我們首先訓練一個生成模型去為查詢的圖片生成大致的中性臉;然后學習生成模型的的殘留,這是為了減緩識別相關的變化因素。
2、我們提出的方法有能力處理無意識的表情、姿勢表情、變化類型和種族背景等情形。他成功地提高了單數據集的識別能力,在交叉驗證數據集上也比最先進的方法表現好。
2、相關工作
以前的工作表明使用中性臉對面部表情識別有益。從像素級或特征級別的相應面部表情圖像中減去中性面部圖像可以強調面部表情,同時減少類內變異。
Bazzo et al.[2]通過應用Gabor 小波在提取的中性臉上,獲得了良好的識別率。Zafeiriou etal.[30]對於不同的圖片應用稀疏面部表情表示,這是從表現中性圖像中減去中性圖像得出的,並證明使用中性圖像往往強調移動的面部部分。Lee at al.[15]從訓練集生成幾個類內變異圖像(包括中性),然后由待識別面部圖像減去
獲得不同的圖像。 差異圖像用於強調查詢面部圖像中的面部表情。
Kim et al.[13]在網絡中采用對比表示來提取查詢面部圖像和中性面部圖像之間的特征級別差異。
然而,這些先前的論文假設在給定相同主題的任何表達的情況下中性表達總是可用的,這是不現實的。根據需要從任何輸入表情生成中性臉。最近的工具-GAN在展現出成功在這樣的應用。Gauthier [7]試圖用CGAN去生成特定屬性的人臉,Radford et al. [24][24]嘗試使用CNN來擴大GAN以模擬圖像,並引入深度卷積生成對抗網絡(DCGAN)的結構。這項工作展示了通過矢量算法操縱生成的面部樣本的能力。Isola等。 [11]利用條件性逆向網絡進行圖像到圖像的轉換,並展示了許多有趣的應用,即從地圖生成航空照片,從邊緣地圖重建物體,以及着色圖像。此外,周等人[36] 應用cGAN來合成來自中性面部的面部表情圖像。
到目前為止,已經使用查詢圖像和生成的中性圖像的圖像或特征差異,但是沒有探索生成模型中記錄的任何隱式表達信息。我們提出去探索表情信息,那些插入在生成器中,並且在中間層直接提取表情成分。事實上,這樣的信息這種信息在去表達過程中由發生器“濾除”,而其表示(或殘留)仍然存放在生成模型中,因此成為表示表達成分的關鍵信息。我們提出的方法不是同時使用查詢圖像和生成的中性人臉圖像來訓練具有對比度損失函數的深度模型(例如[13]),而是着重於學習生成模型的殘差,從而有效地捕獲表達成分和 對個體變化更加健壯。
3、提出方法 - DeRL
我們提出的DERL方法結構框架如圖2。包含兩個學習過程:第一步是通過cGANs學習中性臉生成器。第二步是從生成器中間層學習。輸入圖像對e.g. < I input , I target >,被用來訓練cGANs.我輸入的是顯示任何表情的臉部圖像,而我的目標是同一主題的中性臉部圖像。在訓練之后,生成器為任何輸入重建相應的中性面部圖像,同時保持身份信息不變。 從表情面部圖像到中性面部圖像,表達相關信息被記錄為中間層中的表達成分。 對於第二學習過程,生成器的參數是固定的,並且中間層的輸出被組合並輸入到用於面部表情分類的深度模型中。
3.1中性臉生成器
cGAN被利用去通過給定的表情圖片生成中性面部表示。一個GAN框架經常包含兩個不同的部分,一個生成器(G),和一個判別器(d)訓練發生器通過用鑒別器進行所謂的minmax游戲來恢復訓練數據的分布。提供圖像對<I input,I target>用於訓練cGAN.我輸入首先輸入到生成器中以重新構造I輸出,然后<I input,I target,yes>和<I input,I output,no>被賦予鑒別器。 鑒別器試圖在生成器嘗試時將<I input,I target>與<I input,I
output>區分開來.不僅最大限度地混淆鑒別器,而且還產生盡可能接近目標圖像的圖像。
鑒別器的目標表示為:
其中N是訓練圖相對的總數
生成器的目標形容如下:
在這里,我們使用L1損失來獲得圖像相似度而不是L2,因為L2損失傾向於過度模糊輸出圖像[11]。 最終目標是:
3.2面部表情識別組成
經過中性臉生成,可以在像素級或者特征級通過比較中性臉和待識別表情來分析表情信息。然而,由於圖像之間的變化,即旋轉,平移和照明條件變化,像素級差異是不可靠的。即使沒有表達式更改,這也會導致較大的像素級差異。 此外,特征級別差異是不穩定的,因為表達信息可能根據身份信息而變化。 由於查詢圖像和中性圖像的差異記錄在中間層中,我們利用表達式 直接從中間層中分解成分,以緩解上述問題,
我們用面部表情表示一個圖像:I
在輸入生成模型后,生成中性表達圖像:
其中,G是生成器,E屬於六種基本原型面部表情中的任何一種。 從等式(4),我們可以看到具有主題(A)和表達(E)的圖像變為同一主題(A)的中性面部。可以合理地得出結論,每個人的獨特表達信息(a.k.a.表達成分)必須記錄在發生器的中間層中。 因此,我們提出了第二種學習策略,即直接從發生器的中間層學習表達式。 該獨特信息也稱為去表達殘基(例如,參見圖3)。
如圖2所示,為了從發生器的中間層學習去表達殘差,這些層的所有濾波器都是固定的,並且具有相同大小的所有層被連接並輸入到本地CNN中。 面部表情分類模型。 對於每個本地CNN模型,代價函數被標記為損失i,i∈[1,2,3,4]。 每個本地CNN模型的最后完全連接的層被進一步連接並與用於面部表情分類的最后編碼層組合。 因此,總損失函數定義為: