Heterogeneous Face Attribute Estimation: A Deep Multi-Task Learning Approach
2017.11.28
Introduction:
人臉屬性的識別在社會交互,提供了非常廣泛的信息,包括:the person’s identity, demographic (age, gender, and race), hair style, clothing, etc. 基於人臉屬性識別的場景也越來越多,如:(i)video Surveillance;
(ii)face retrieval;(iii)social media。盡管最近在屬性識別上取得了很大的進展,但是,大部分 prior works 限制在預測單個屬性(如:age),或者 針對每一個屬性學習一個 model,進行識別。為了解決上述的局限性,已經有很多工作在嘗試 joint 的預測多個屬性【見文章引用 19-23】。但是這些方法都有或多或少的不足:
1. The approaches in [19], [20], [22] used the same features for estimating all the attributes without considering the attribute heterogeneity.
2. The sumproduct network (SPN) adopted in [21] for modeling attribute correlations may not be feasible because of the exponentially growing number of attribute group combinations.
3. The cascade network in [23] also required learning a separate Support Vector Machine (SVM) classifier for each face attribute, and is not an end-to-end learning approach.
圖一展示了人臉屬性的相關性以及多樣性。屬性之間關系要么是 pos 要么是 neg。與此同時,單個屬性可以是多樣的(根據 data type 或者 scale,以及 semantic meaning)。這種屬性相關性以及多樣性應該被編碼到 屬性預測模型中去(Such attribute correlation and heterogeneity should be considered in designing face attribute estimation models.)。
Proposed Algorithm:
本文提出一種 Deep Multi-Task Learning (DMTL) approach 來 Jointly 的預測單張圖像中的多個屬性。所提出的方法,是受到現有方法的啟發,但是在一個網絡中,考慮到 attribute correlation 以及 attribute heterogeneity。所提出的 DMTL 有前期的共享特征提取階段,以及 特定類型的特征學習來進行多個屬性的預測。共享的特征學習自然地探索了多個 task 之間的相關性,可以更加魯棒以及有效的進行特征的表達。
Main Contributions:
(i) an efficient multi-task learning (MTL) method for joint estimation of a large number of face attributes;
(ii) modeling both attribute correlation and attribute heterogeneity in a single network;
(iii) studying the generalization ability of the proposed approach under cross-database testing scenarios;
(iii) compiling the LFW+ database2 with face images in the wild (LFW), and heterogeneous demographic attributes (age, gender, and race) via crowdsourcing.
Proposed Approach:
1. Deep Multi-task Learning :
本文的目標是,用一個聯合的預測模型,同時預測多個人臉屬性。當大量 face attributes 給特征學習效率上帶來挑戰的同時,他們也提供了結合屬性內部關系的機會(leveraging the attribute inter-correlations to obtain informative and robust feature representation)。例如,CelebA dataset 中的各個屬性之間就有很強的 correlation,如下圖所示:
那么,采用 多任務的框架來學習這個東西,就變的特別直覺了。但是,外觀變換的出現 以及 the heterogeneity of individual attributes, 從 face image space 到 attribute space 的映射,通常是 nonlinear。所以, the joint attribute estimation model 應該可以捕獲到復雜和綜合的非線性變換。CNN model 是一種有效的處理 MTL 以及 nonlinear transformation learning 的方法。所以,我們選擇基於 CNN 的 多任務框架來完成該任務:
一個傳統的 DMTL model 進行聯合的屬性預測可以 formulated by minimizing the regularization error function:
上述 model 就是:重構 loss + 正則化項的標准做法。但是這種方法不是最優的,因為屬性之間的關系並沒有考慮到,而屬性的預測應該共享某些 feature。這也是被其他 paper 所支持的【34】。但是,公式 1 當中的表達方式,並沒有顯示的強調了 a large portion of feature sharing during MTL。我們將上述表達式改為下面的形式:
其中,Wc 控制了人臉屬性共享的 feature,Wj 控制了共享 feature 的更新。Specifically, as shown in Fig. 2, a face image is first projected to a high-level representation through a shared deep network (Wc) consisting of a cascade of complex non-linear mappings, and then refined by shallow subnetworks ({Wj}M j=1) towards individual attribute estimation tasks。
Heterogeneous Face Attributes Estimation:
盡管上述 DMTL 在特征學習過程中用到了 attribute correlations,the attribute heterogeneity 仍然需要考慮。單個 face Attribute 的異質性曾經被提出過,但沒有受到足夠多的關注。原因是如下兩個方面:
1. many of the public-domain face databases are labeled with a single attribute, the requirement of designing corresponding models becomes no longer urgent ;
2. many of the published methods choose to learn a separate model for each face attribute; model learning for individual attributes does not face the attribute heterogeneity problem.
我們分別對待每一個 異質的屬性類別(the heterogeneous attribute categories),但是每一個類別的 attributes 都希望能夠共享 feature learning 以及 classification model。為了完成這個,我們重寫了目標函數:
其中,G 是異質屬性類別的個數。
將大量屬性進行幾個 heterogeneous categories 的划分,依賴於 prior knowledge。此處,我們從 data type and scale (i.e. ordinal vs. nominal) 以及 semantic meaning (i.e. holistic vs. local) 考慮 face attribute heterogeneities,然后解釋我們的 特定類別的建模,來進行這些 heterogeneous attribute categories。
Nominal vs. ordinal attributes .