面部表情視頻中進行遠程心率測量:ICCV2019論文解析
Remote Heart Rate Measurement from Highly Compressed Facial Videos: an End-to-end Deep Learning Solution with Video Enhancement

論文鏈接:
摘要
遠程光容積描記術(rPPG)是一種無接觸測量心臟活動的方法,在許多應用領域(如遠程醫療)具有巨大的潛力。現有的rPPG方法依賴於分析面部視頻的非常詳細的細節,這些細節容易受到視頻壓縮的影響。本文提出了一種利用隱藏的rPPG信息增強和注意力網絡的兩階段端到端的方法,這是第一次嘗試對抗視頻壓縮丟失和從高壓縮視頻中恢復rPPG信號。 The method includes two parts:
1) 用於視頻增強的時空視頻增強網絡(STVEN),以及
2) 用於rPPG信號恢復的rPPG網絡(rPPGNet)。
rPPGNet可以獨立工作以實現魯棒的rPPG測量,STVEN網絡可以添加並聯合訓練以進一步提高性能,特別是在高度壓縮的視頻上。
在兩個基准數據集上進行了綜合實驗,結果表明,
1) 該方法不僅對壓縮后的高質量視頻對具有優異的性能,
2) 它還可以很好地推廣到只有壓縮視頻可用的新數據,這意味着在現實世界的應用前景廣闊。
1. Introduction
心電圖(ECG)和光體積描記器(PPG)是測量心臟活動的常用方法。這兩種類型的信號對於醫療保健應用非常重要,因為它們提供了基本平均心率(HR)和更詳細的信息,如心率變異性(HRV)。
然而,這些信號大多來自皮膚接觸的ECG/BVP傳感器,這可能會引起不適,不便於長期監測。為了解決這一問題,近年來,遠程光容積描記術(rPPG)得到了迅速的發展,它的目標是在沒有任何接觸的情況下對心臟活動進行遠程測量[4,12,19,18,31,32,22]。然而,以往的rPPG測量工作大多沒有考慮到視頻壓縮的影響,而事實上,商業攝像機拍攝的大多數視頻都是通過不同比特率的不同壓縮編解碼器進行壓縮的。
最近,兩篇文獻[7,16]指出並證明了在使用不同比特率的壓縮視頻時,rPPG測量的性能有不同程度的下降。如圖1(a)所示,由於視頻壓縮過程的幀內和幀間編碼造成的信息丟失,從高壓縮視頻中測量的rPPG信號通常遭受噪聲曲線形狀和不准確的峰值位置。考慮到Internet上存儲和傳輸的方便性,視頻壓縮是遠程業務發展的必然趨勢。因此,開發能夠在高壓縮視頻上可靠工作的rPPG方法具有重要的實用價值。然而,還沒有提出解決這一問題的辦法。
為了解決這一問題,本文提出了一種基於隱藏rPPG信息增強和注意網絡的兩階段端到端的方法,該方法可以有效地抵抗視頻壓縮丟失,並從高壓縮的面部視頻中恢復rPPG信號。圖1(b)說明了本文從高壓縮視頻中測量rPPG的方法的優點。本文的貢獻包括: •據本文所知,本文提供了第一個直接從壓縮視頻進行魯棒rPPG測量的解決方案,這是一個端到端的框架,由視頻增強模塊STVEN(時空視頻增強網絡)和強大的信號恢復模塊rPPGNet組成。
•rPPGNet具有基於皮膚的注意模塊和划分約束,可以在HR和HRV兩個水平上精確測量。與以往只輸出簡單的HR數的工作相比,所提出的rPPGNet能夠產生更豐富的具有曲線形狀和峰值位置的rPPG信號。此外,即使不使用STVEN模塊,它在基准數據集的各種視頻格式上也優於最新的方法。
•STVEN是一個視頻到視頻轉換生成器,有助於細粒度學習,它是第一個視頻壓縮增強網絡,用於提高對高度壓縮視頻的rPPG測量。
•本文進行了跨數據集測試,結果表明,STVEN能夠很好地泛化以增強用於rPPG測量的不可見的、高度壓縮的視頻,這意味着在實際應用中具有潛在的應用前景。

2. Related Work
遠程光容積描記測量。
在過去的幾年中,一些傳統的方法通過分析面部感興趣區域(ROI)的細微顏色變化來探索視頻中rPPG的測量,包括盲源分離[19,18]、最小均方[12]、多數投票[10]和自適應矩陣完成[31]。然而,這些作品中的ROI選擇是定制的或任意的,這可能會導致信息丟失。理論上講,所有皮膚像素都有助於rPPG信號的恢復。還有其他利用所有皮膚像素進行rPPG測量的傳統方法,例如基於色度的rPPG(CHROM)[4]、與膚色正交的投影平面(POS)[35]和空間子空間旋轉[36、34、13]。所有這些方法對每個皮膚像素的貢獻都是相等的,這與不同的皮膚部位對rPPG的恢復所承受的權重不同是背道而馳的。 最近,有人提出了一些基於深度學習的平均心率估計方法,包括synrhethm[17]、HR-CNN[25]和DeepPhys[3]。卷積神經網絡(CNN)也被用於皮膚分割[2,28],然后從皮膚區域預測HR。這些方法都是基於空間二維CNN,無法捕捉rPPG測量所必需的時間特征。此外,皮膚分割任務與rPPG恢復任務是分開處理的,這兩個高度相關的任務之間缺乏相互的特征共享。
視頻壓縮及其對rPPG的影響。
在實際應用中,視頻壓縮以其存儲容量大、質量退化小等優點得到了廣泛的應用。作為運動圖像專家組(MPEG)和國際電信聯盟電信標准化部門(ITU-T)的標准,已經開發了許多視頻壓縮編解碼器。其中包括MPEG-2第2部分/H.262[8]和低比特率標准MPEG-4第2部分/H.263[21]。當前一代標准AVC/H.264[37]在編碼效率上比H.262和H.263大約提高了一倍。最近,下一代標准HEVC/H.265[27]采用了越來越復雜的編碼策略,使編碼效率比H.264提高了一倍左右。在視頻編碼階段,量化的結果不可避免地會產生壓縮偽影。具體來說,現有的壓縮標准減少了人眼看不見的細微變化。它不利於rPPG測量的目的,rPPG測量主要依賴於不可見水平上的細微變化。視頻壓縮對rPPG測量的影響直到最近才被研究。三項工作[7,16,24]一致證明壓縮偽影確實降低了HR估計的准確性。然而,這些工作僅在使用傳統方法的小規模私有數據集上進行了測試,並且還不清楚壓縮是否也影響了大數據集上基於深度學習的rPPG方法。此外,這些工作只是指出了rPPG的壓縮問題,但還沒有提出解決方案。
壓縮視頻的質量增強。
在深度學習的高性能推動下,一些研究者將其引入到壓縮視頻的質量提升中,取得了很好的效果,包括ARCNN[5]、深度殘差去噪神經網絡(DnCNN)[39]、生成性對抗網絡[6]和多幀質量提升網絡[38]。然而,它們都是為解決一般的壓縮問題或其他任務(如目標檢測)而設計的,而不是為rPPG測量而設計的。關於從低質量視頻中恢復rPPG,有兩部著作[1540]。[15]關注的是幀分辨率,而不是視頻壓縮和格式。另一種方法[40]試圖解決壓縮視頻中的rPPG問題,但該方法僅在提取rPPG后的生物信號處理水平上進行,與視頻增強無關。據本文所知,目前還沒有針對高壓縮視頻中rPPG恢復問題的視頻增強方法。
為了克服上述缺點和空白,本文提出了一種基於高壓縮視頻的兩階段端到端的基於深度學習的RPPG測量方法。

3. Methodology
作為一種兩階段端到端的方法,本文將首先在第3.1節中介紹本文的視頻增強網絡STVEN,然后在第3.2節中介紹rPPG信號恢復網絡rPPGNet,最后說明如何聯合訓練這兩部分以提高性能。總體框架如圖2所示。
3.1. STVEN
為了提高高壓縮視頻的質量,本文提出了一種稱為時空視頻增強網絡(STVEN)的視頻到視頻生成器,如圖2的左邊所示。這里,本文通過假設來自不同壓縮比特率的壓縮偽影具有不同的分布來執行細粒度學習。結果,壓縮視頻被放入基於其壓縮比特率表示為C的bucket[0,1,2,…,C]中。這里,0和C分別表示壓縮率最低和最高的視頻。
本文用時空卷積神經網絡建立了模型STVEN。該體系結構由兩個下采樣層和兩個上采樣層在兩端組成,中間有六個時空塊。體系結構的詳細信息顯示在表1的頂部。

3.2. rPPGNet
提出的rPPGNet由時空卷積網絡、基於皮膚的注意模塊和分區約束模塊組成。基於皮膚的注意有助於自適應地選擇皮膚區域,並引入分割約束來學習更好的rPPG特征表示。
時空卷積網絡。
以前的工作,如[4,35],通常投影空間池RGB到另一個顏色空間,以更好地表示rPPG信息。然后采用基於時間上下文的規范化方法去除不相關信息(如光照或運動引起的噪聲)。本文將這兩個步驟合並為一個模型,提出了一種以RGB通道的T幀人臉圖像為輸入,直接輸出rPPG信號的端到端時空卷積網絡。rPPGNet的主干網和體系結構如圖2和表1所示。為了恢復rPPG信號y∈RT,與相應的地面真值ECG信號yg∈RT相比,該信號應具有准確的脈沖峰值位置,采用負Pearson相關來定義損失函數。它可以表述為

與均方誤差(MSE)不同,本文的損失是最小化線性相似性誤差而不是逐點強度誤差。本文在先前的測試中嘗試了MSE損失,由於信號的強度值與本文的任務無關(即測量准確的峰值位置),並且不可避免地引入了額外的噪聲,因此獲得了更差的性能。
皮膚分割和注意。 不同的皮膚區域有不同的血管密度和生物物理參數圖(黑色素和血紅蛋白),因此對rPPG信號的測量有不同程度的貢獻。因此,皮膚分割任務與rPPG信號恢復任務密切相關。這兩個任務可以看作是一個多任務學習問題。因此,本文在第一個塊之后使用皮膚分割分支。皮膚分割分支將共享的低層時空特征投影到皮膚域中,皮膚域通過空間和信道卷積以及剩余連接來實現。由於相關的rPPG數據集中沒有地面真皮膚圖,因此本文通過自適應皮膚分割算法為每個幀生成二值標簽[29]。模塊如圖3所示。
分區約束。
為了幫助模型學習更集中的rPPG特征,引入了局部划分約束。如圖4所示, 分區損失可以被認為是高級功能的一個退出[26]。它具有正則化效應,因為每個分割損失彼此獨立,從而迫使部分特征足夠強大,以恢復rPPG信號。也就是說,通過划分約束,模型可以更集中於rPPG信號而不是干擾。總之,rPPGNet的損失函數可以寫成



3.3. Joint Loss Training
當STVEN與rPPGNet分開訓練時,輸出的視頻不能保證后者的有效性。受[14]的啟發,本文設計了一個高級聯合訓練策略,以確保STVEN能夠特別增強視頻,有利於rPPG恢復,這將提高rPPGNet的性能,即使是在高度壓縮的視頻上。 首先,本文使用第3.2節中描述的訓練方法在高質量視頻上訓練rPPGNet。 其次,本文用不同比特率的壓縮視頻訓練STVEN。
最后,本文訓練級聯網絡,如圖2所示,所有高級任務模型參數都是固定的。 因此,以下所有損失函數
是為更新STVEN而設計的。在這里,本文采用面向應用程序的聯合訓練,本文更喜歡端到端的性能,而不是兩個階段的性能。
在這種訓練策略中,本文去掉了循環丟失部分,因為本文期望STVEN在視頻壓縮過程中恢復更豐富的rPPG信號而不是無關的信息丟失。
因此,本文只需要知道它的目標標簽,所有輸入到STVEN的視頻的壓縮標簽可以簡單地設置為0作為默認值。這使得該模型更具通用性,因為它不需要對輸入視頻進行主觀壓縮標記,因此可以對壓縮率不明確的新視頻進行處理。

4. Experiments
本文在四個子實驗中測試了該系統,前三個在OBF[11]數據集上,最后一個在MAHNOB-HCI[23]數據集上。
首先,本文在OBF上評估rPPGNet的平均HR和HRV特征度量。
其次,本文壓縮OBF視頻,並探討視頻壓縮對rPPG測量性能的影響。
再次,本文證明了STVEN可以增強壓縮視頻,提高OBF上rPPG的測量性能。 最后,在MAHNOBHCI上對STVEN和rPPGNet的聯合系統進行了交叉測試,驗證了系統的通用性。
4.1. Datasets and Setting
視頻以61fps的速度錄制,分辨率780x580,壓縮格式為AVC/H.264,平均比特率≈4200kb/s,實驗評價采用EXG2信號作為地面真實心電圖。本文遵循與之前的工作相同的程序[17,25,3]並使用每個視頻的30秒(第306到2135幀)。
使用最新版本的FFmpeg[1]執行視頻壓縮。為了實現三種主流壓縮標准(H.263、H.264和H.265),本文使用了三種編解碼器(MPEG4、x264和x265)。為了證明STVEN對高壓縮視頻(即文件大小較小且比特率低於1000 kb/s)的影響,本文將OBF視頻壓縮為三個質量級別,即平均比特率(文件大小)=1000 kb/s(36.4 MB)、500 kb/s(18.2 MB)和250 kb/s(9.1 MB)。比特率(文件大小)分別是原始視頻的20、40和80倍。
4.2. Implementation Details
訓練環境。
對於所有的面部視頻,本文使用Viola Jones面部檢測器[33]來檢測和裁剪粗糙的面部區域(見圖8(a))並移除背景。本文通過開源Bob1生成二元皮膚面具,閾值為0.3作為基本真相。所有人臉和皮膚圖像分別標准化為128x128和64x64。
績效指標。
為了評估恢復的rPPG信號的准確性,本文遵循了先前的工作[11,17],在OBF數據集上報告了平均HR和幾個常見的HRV特征,然后在MAHNOB-HCI數據集上評估了幾個平均HR測量指標。計算了四個常用的HRV特征[11,18]進行評估,包括呼吸頻率(RF)(單位:Hz)、低頻(LF)、高頻(HF)和低頻/高頻(單位:標准化單位:n.u.)。
恢復的rPPGs和它們對應的地面真值ecg都經過相同的濾波、歸一化和峰值檢測過程來獲得拍間間隔,從中計算平均HR和HRV特征。
本文報告了最常用的績效評估指標,包括:標准差(SD)、均方根誤差(RMSE)、皮爾遜相關系數(R)和平均絕對誤差(MAE)。用△PSNR評價增強前后視頻質量的變化。
4.3. Results on OBF
OBF有大量高質量的視頻片段,適合於驗證本文的方法在平均HR和HRV水平上的穩健性。本文執行獨立於受試者的10倍交叉驗證方案來評估OBF數據集上的rPPGNet和STVEN。在測試階段,根據30秒長的輸出rPPG信號計算平均HR和HRV特征。
rPPGNet對高質量視頻的評價。
在這里,本文在原始的OBF視頻上重新實現了幾種傳統的方法[4,11,35],並將結果與表2中的結果進行了比較。結果表明,rPPGNet(full)在平均HR和HRV特征上均優於其它方法。
從融合試驗結果可以得出結論:
1) 皮膚分割模塊(表2中的第五行)。多任務學習的性能略有提高,說明這兩個任務可能具有相互隱藏的信息。
2) 分區模塊(表2中的第六行)通過幫助模型學習更集中的特性,進一步提高了性能。
3) 基於皮膚的注意力教會網絡去哪里看,從而提高性能。在本文的觀察中,基於空間的softmax操作的空間注意比時空注意效果更好,因為在rPPG恢復任務中,不同幀的權重應該非常接近。
rPPGNet對高壓縮視頻的評價。
本文使用第4.1節中描述的三個編解碼器(MPEG4、x264和x265)將OBF視頻壓縮為三個比特率級別(250、500和1000 kb/s),因此本文有九組(3×3)高度壓縮的視頻。本文使用10倍交叉驗證,對9組視頻中的每一組分別使用rPPGNet和其他三種方法進行評估。
結果如圖5所示。從圖中本文可以看到,
第一,當比特率降低時,傳統方法和rPPGNet的性能都會下降,這對所有三種壓縮編解碼器都是正確的。觀察結果與之前的研究結果一致[16,24],並證明壓縮確實影響rPPG的測量。
其次,重要的結果是,在相同的壓縮條件下,rPPGNet在大多數情況下都能優於其他方法,特別是250kb/s的極低比特率,這證明了rPPGNet的魯棒性。但是在低比特率下的准確率並不令人滿意,本文希望通過視頻增強來進一步提高性能,即使用所提出的STVEN網絡。
用STVEN評價rPPGNet對高壓縮視頻的增強效果。
首先,本文證明了基於△PSNR的STVEN確實在總體上提高了視頻質量。如圖6所示,經STVEN增強的視頻的△PSNR大於零,表明質量得到了提高。本文還將STVEN與其他兩種增強網絡(ARCNN[5]和DnCNN[39])進行了比較,STVEN獲得的△PSNR比其他兩種方法更大。
然后將STVEN與rPPGNet級聯,驗證了視頻增強模型能夠提高rPPGNet的HR測量性能。本文在x264壓縮視頻上比較了兩種增強網絡(STVEN與DnCNN[39])和兩種訓練策略(單獨訓練與聯合訓練)的性能。單獨的訓練意味着增強網絡預先訓練在高度壓縮的視頻上,rPPGNet預先訓練在高質量的原始視頻上,而聯合訓練則調整兩個單獨訓練的結果,兩個任務同時丟失。
圖7(左)的結果表明:對於高壓縮視頻的rPPG恢復和HR測量,
1) STVEN有助於提高rPPGNet的性能,而DnCNN沒有;以及
2) 聯合訓練比單獨訓練效果好。令人驚訝的是,STVEN在單獨訓練模式和聯合訓練模式下都能增強rPPGNet,而DnCNN[39]在單獨訓練模式和聯合訓練模式下都能抑制rPPGNet,這可能是由於STVEN具有細粒度學習的優良時空結構和DnCNN單幀模型的局限性所致。
STVEN-rPPGNet的泛化能力如圖7(右)所示,其中在x264視頻上訓練的聯合系統在MPEG4和x265視頻上進行了交叉測試。由於STVEN的質量和rPPG信息增強,rPPGNet能夠通過MPEG4和x265壓縮從未經訓練的視頻中測量更精確的HR。
4.4. Results on MAHNOB-HCI
為了驗證本文的方法的通用性,本文在MAHNOB-HCI數據集上對本文的方法進行了評估。MAHNOB-HCI是HR測量中應用最廣泛的數據集,由於其高壓縮率和自發運動(如面部表情),視頻樣本具有挑戰性。采用獨立於受試者的9倍交叉驗證方案(一次3名受試者,共27名受試者)。由於沒有原始的高質量視頻可用,STVEN在OBF firstly上使用x264高壓縮視頻進行訓練,然后與MAHNOB-HCI上訓練的rPPGNet級聯進行測試。與表3中的最新方法相比,本文的rPPGNet在主觀無關協議方面優於基於深度學習的方法[17,25]。借助於STVEN豐富的rPPG信息進行視頻增強,本文的兩階段方法(STVEN+rPPGNet)優於其他所有方法。這表明即使沒有高質量的視頻,STVEN也可以交叉提高性能。
4.5. Visualization and Discussion
在圖8中,本文將一個示例可視化,以顯示STVEN+rPPGNet方法的可解釋性。來自rPPGNet圖8(c)的預測注意圖聚焦於具有最強rPPG信息的皮膚區域(例如,前額和臉頰),這與[32]中提到的先驗知識一致。
如圖8(b)所示,STVEN增強的面部圖像似乎在相似的皮膚區域具有更豐富的rPPG信息和更強的脈動流,這表明圖8(c)的一致性。
本文還將rPPGNet恢復的rPPG信號標繪在有或無STVEN的高壓縮視頻上。如圖9(頂部)所示,得益於STVEN的增強,預測信號具有更精確的IBIs。此外,圖9(底部)顯示了具有STVEN增強的高壓縮視頻的較低客觀質量(PSNR)表現,這似乎有助於恢復更平滑和穩健的rPPG信號。




5. Conclusions and Future Work
本文提出了一種基於端到端深度學習的高壓縮視頻rPPG信號恢復方法。利用STVEN對視頻進行增強,並將rPPGNet級聯以恢復rPPG信號以進行進一步的測量。在未來,本文將嘗試使用與壓縮相關的度量,如PSNR-HVS-M[20]來約束增強模型STVEN。此外,本文還將探索建立一種新的視頻質量評估指標的方法,特別是用於rPPG恢復。
