Gaze Estimation學習筆記(2)-It's Written All Over Your Face Full-Face Appearance-Based Gaze Estimation


前言

本篇博客是筆者在讀完論文“It’s Written All Over Your Face:Full-Face Appearance-Based Gaze Estimation”后的一個小小總結。

該篇論文主要提出了一種基於完整臉部圖像,通過加入了空間權重的CNN得到2D、3D視線方向的方法,並對完整臉部圖片對於視線檢測的作用進行了相關實驗與分析。

論文主要分為兩大部分。第一部分主要介紹論文作者提出的新視線檢測方法:引入空間權重的CNN。這部分中,論文作者闡述了將完整臉部圖片作為輸入、在CNN中引入空間權重的原因,並根據后續實驗分析這種新方法的性能,闡述了完整臉部圖像對視線預測的作用

將完整臉部圖像作為輸入的空間權重CNN方法

論文作者提出了一種CNN結構,直接根據輸入的完整面部圖像,得到2D或3D的視線方向,在MPIIGaze數據集上獲得了較大的准確度提升(14.3%)。這種CNN結構包含一種空間權重機制,將臉部不同區域的信息編碼,與經典CNN網絡的特征圖結合,提取了面部不同區域包含的有助於判斷視線方向的信息。

將full-face image作為輸入的原因

論文作者提到,先前的Gaze Estimation算法大部分將目標的眼部圖像作為輸入,而近期的部分論文已經提出,面部除眼睛外的其他部分,同樣包含有助於判斷視線方向的信息。而神經網絡方法擁有很強的信息提取的能力,因此,基於面部除眼睛的其他部分同樣包含有助於判斷視線方向的重要信息的假設,論文作者認為將完整的面部圖像作為神經網絡的輸入,有助於提高視線檢測算法的准確度。

加入空間權重的CNN方法

論文中闡述,加入空間權重主要有以下兩個理由:

  • 對於輸入的完整面部圖片,部分區域,如背景,對於解決Gaze問題沒有幫助,應盡量減少其影響。
  • 如前文所述,面部除眼睛外的其他區域隱藏着對於Gaze問題有輔助作用的重要信息。

因此,作者將通過激活圖來學習空間權重的機制加入經典CNN架構,並取得了較好的結果。

基礎CNN結構

對於經典CNN部分,作者采用了擁有5個卷積層、2個全連接層的AlexNet,並在全連接層后添加一個線性回歸層以得到所需的2D或3D視線焦點坐標。這部分中作者使用了在LSVRC-2010 ImageNet上預訓練好的參數,並通過MPIIGaze數據集對整個網絡進行微調。

空間權重機制

在上述CNN的5個卷積層得到最終的特征圖后,論文作者將特征圖作為輸入,添加三個卷積核為1x1的卷積層,使用ReLu作為激活函數,並最終得到一個13x13的熱度圖。之后,論文作者將熱度圖直接與之前卷積層的特征圖逐元素相乘,作為全連接層的輸入。

實驗及分析

為檢驗這種方法的准確率,作者分別在MPIIGazeEYEDIAP數據集上進行了2D、3D視線檢測的與其他方法的對比。對比的方法有:只考慮單眼圖片的方法(Visualizing and understanding
convolutional networks),上篇博客總結的方法(Appearancebased gaze estimation in the wild),iTracker,只考慮雙眼部分的iTracker,修改為AlexNet的ITracker。

在與兩個數據集,2D與3D兩種問題的對比上,論文作者提出的空間權重CNN方法均取得了最好的表現。其中,2D問題上各方法在EYEDIAP數據集上的准確率均低於MPIIGaze數據集,論文作者認為可能是EYEDIAP數據集的低分辨率所致。

頭部姿態、面部表現視線方向的關系

這一部分中,論文作者為探索不同因素對於視線方向判斷的影響程度,將以下三種特殊情況進行對比:

1.直接將頭部姿態作為視線檢測結果

2.一個根據輸入的頭部姿態直接得到視線檢測結果的線性回歸模型

3.在遮住所有眼部的MPIIGaze數據及上訓練所得的模型

而進行對比后,得到的准確率為:1<2<3。這一結果令人意外的表明,將完整面部圖片作為輸入甚至比頭部姿態信息更有助於視線檢測問題的解決

(筆者的個人理解:理論上說完整的面部圖片是包含頭部姿態信息的,那么在模型提取信息的能力足夠強的前提下,完整面部圖片理應能提供更多頭部姿態無法提供的信息,以幫助判斷視線方向。)

不同臉部區域的重要性分析

既然面部其他區域有助於視線方向的判斷,接下來論文作者嘗試探索不同情況下面部的哪些區域有助於視線方向的檢測。這一部分,作者通過研究使用64x64的遮罩遮住圖片不同部分后分析准確率下降程度的方法得到熱力圖,來近似臉部不同區域的對於視線檢測問題的重要程度。

光照

通過MPIIGaze數據集中,灰度平均值在水平方向上的不同密度為依據分類不同光照情況,論文作者發現,光照更強的一邊,熱力圖中眼部與其他區域的連通性更強。同時在各種光照下,空間權重CNN方法的准確率均高於只考慮雙眼圖片的方法。

視線方向

通過實驗發現,當目標的視線方線越平直時,眼部的熱度越高。而視線方向越偏時,熱度則明顯的朝面部其他部分分散

頭部姿態

這部分使用了頭部姿態分布更廣的EYEDIAP數據集。實驗發現,當頭部姿態極端偏時,面部其他區域對視線檢測的幫助尤為明顯。此外,EYEDIAP數據集上的熱度相比MPIIGaze,明顯的朝面部周圍分散,可能證明在低分辨率的情況下,使用完整面部圖像有更大優勢

結論

采用完整面部圖像作為輸入,加入了空間權重的CNN方法對於極端頭部姿勢、視線方向、光照造成的極端頭部姿態變化有更高的魯棒性。

同時,實驗的結果表明,采取完整面部圖像作為輸入的 appearance-based視線檢測問題與其他相關CV問題(如面部特征識別、面部表情識別等)非常接近,在未來的基於學習的方法中,將這類問題綜合考慮可能會取得更好的結果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM