Gaze Estimation學習筆記(1)-Appearance-Based Gaze Estimation in the Wild


前言

簡介

在使用神經網絡解決Gaze Estimation的問題上,Appearance-Based Gaze Estimation in the Wild是非常基礎的一篇論文。本篇博客主要嘗試簡單介紹論文使用的主要方法,並大致總結論文作者所得出的結論。

論文概述

本篇論文主要分為三個方面:

  1. 介紹了論文作者收集制作的MPIIGaze數據集。
  2. 介紹了一種使用了CNN作為主要方法的Gaze Estimation方法。
  3. 在多個數據集上使用多種方法進行分析比較,以得到更多對於Gaze Estimation的新理解。

論文主要內容

MPIIGaze數據集

論文作者在文中提到,大部分(截至論文撰寫時的)主流Gaze Estimating方法往往基於實驗室中受控的環境下采集的數據集,而這類數據集的眼部外表往往變化較少,光照情況、大部分有用像素的集中位置等特征也較為單一。因此,論文作者采集制作了MPIIGaze數據集,歷時數月通過筆記本電腦對15個受試者進行采集,數據集主要具有以下特點:

  • 全部在筆記本電腦的真實使用環境下采集,光照,眼部外表等特征相比其他數據集有顯著的多樣性。
  • 由於不同受試者采集的攝像機位置不同,數據集中頭部姿態,視線方向的覆蓋范圍較廣且重復率較低。

論文作者認為,MPIIGaze數據集具有更高的復雜度,更加接近與日常生活中的各類場景。后文的研究也證明MPIIGaze數據集訓練的模型確實在魯棒性上有所提升。

引入CNN的新Gaze Estimation方法

在介紹完MPIIGaze數據集后,論文作者介紹了一種新的使用神經網絡解決Gaze Estimation問題的方法。

文中提到,當時的各類方法往往將精確的人物頭部姿態作為已知條件,是一種很強的假設。因此,論文作者提出了一套完整的方法,根據輸入圖像完整判斷人物頭部姿態、視線方向。

算法的流程圖如下:(圖片來源自論文)

算法將單目相機拍攝的照片作為輸入,直接輸出最終的視線方向。該算法主要分為以下三個部分:

  • 人臉對齊與3D頭部姿態判斷
  • 歸一化
  • 使用CNN進行視線檢測

人臉對齊與3D頭部姿態判斷

第一部分中,輸入為單目相機拍攝的人物圖像。論文作者采用SURF cascade方法檢測人臉,檢測到人臉后采用constrained local mode framework定位人臉標記點,即雙眼的左右邊界點與人物嘴巴的左邊邊界點共6個點。

論文作者根據收集到的所有人臉數據,建立人臉的基礎3D模型,並將人臉基礎3D模型與識別出的6個人臉標記點對比,通過EPNP算法估計出人臉的3D旋轉\(r\),並將雙眼標記點的中點,作為雙眼的位置\(t\)

至此,得到了人臉的3D旋轉估計與雙眼位置,進入下一步處理。

歸一化

接下來,論文作者進行一系列操作將人臉圖像歸一化,以提高CNN的最終准確率。

首先,論文作者分別建立人臉坐標系與攝像機坐標系,具體規則可參考Gaze Estimation筆記——data normalization。歸一化主要通過透視變換,達到以下目標:

  • 將攝像機視角從固定距離\(d\)正對雙眼位置\(t\)
  • 將人臉坐標與攝像機坐標的\(x\)軸平行。

歸一化后的到分辨率固定的眼部圖像\(e\)與2維的頭部轉動角度向量\(h\)。這樣的歸一化將跨數據集測試變為可行。

使用CNN進行視線檢測

CNN的任務為處理輸入的2D頭部角度\(h\)、歸一化后的眼部圖像\(e\),以得到最終的2維視線角度向量\(g\)

論文作者采用的CNN構架是LeNet,在全連接層后訓練了線性回歸層以輸出視線角度向量\(g\)。CNN將固定分辨率60x36的圖片作為輸入,兩個卷積核分別為5x5x20、5x5x50。全連接層的隱藏單元共500個,並將頭部角度\(h\)拼接至全連接層的輸出,以得到最終的2維視線角度向量\(g\)

論文作者進行的實驗及結果

跨數據集測試

在跨數據集測試中,論文作者將頭部、眼部角度覆蓋最廣的UT Multiview數據集作為訓練集,分別測試了模型在MPIIGaze數據集與eyediap數據集上的結果,並與其余5種當時的表現頂尖的算法進行比較。

在兩個測試數據集中,論文作者提出的基於CNN的方法表現均優於其他算法。並且各算法在MPIIGaze數據集上的准確率均低於eyediap數據集,證明了室外復雜環境下Gaze Estimation的難度提升

此外,論文作者認為這一結果暴露了UT Multiview數據集在眼部外觀上較為單一的缺陷,並推斷出數據集多樣性的缺乏是限制Gaze Estimation效果的因素之一

數據集內測試

在單個數據集的測試中,論文作者提出的算法同樣有最高的准確率。

此外,論文作者還將同樣模型分別在UT Multiview數據集、MPIIGaze數據集下進行訓練后,測試其在光照環境變化時的准確率,發現在MPIIGaze數據集下訓練的模型明顯對於光照變化有更強的適應能力,證明了數據集多樣性對於室外Gaze Estimation的重要性

算法的效果驗證

論文作者還測試了不同CNN架構在UT Multiview數據集以及MPIIGaze數據集下的結果,證明提出的CNN架構優於當時的其他種類CNN。

同時,論文作者還進行了對不同識別對象進行單獨訓練的“person-specific”方法,發現在能針對不同對象進行單獨訓練的情況下,各類算法均有算法上的提升

筆者的遺留問題

  • 對於歸一化使用EPNP算法得到3D頭部旋轉角度時的具體操作,即選定哪些點作為參考點、控制點還不清楚,論文中沒有詳細闡述,需要后期學習代碼時留意。
  • 歸一化后頭部坐標系與相機坐標系X軸對齊的情況下,按筆者理解應該只有頭部上下轉動一個角度,而\(h\)是二維向量,具體是哪兩個角度也需要進一步學習。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM