cvpr 2019,竟然和視頻異常檢測這個比較小的領域有關,挺有意思
- 問題:弱標簽視頻異常檢測(只有視頻級標簽)在先前的工作中被定義為一個典型的多實例學習問題 multi-instance learning problem,將視頻作為一個bag,包含被認為實例的片段。作者將其轉換為在Noisy labels下的監督學習問題。noise labels 指的是在異常視頻中正常片段的錯誤標注。
- 挑戰:在 Noisy labels 的情況下,只要能清理這些noisy label, 就可以直接在弱監督異常檢測的情況下采用一個全監督動作分類器。
- 創新:采用GCN來矯正noisy label。基於特征相似性和時序連續性,會逐漸將高置信度片段的監督信號傳播到低置信度的樣本。采用單一模型,而沒有預處理的過程,使得模型更便捷和高校。
包含了兩個階段:Cleaning 和 Classification,training時這兩個階段不斷執行直到收斂。在testing時,不再需要cleaner,而是直接獲取分類器效果:- Cleaning階段,訓練一個清理器 cleaner 來糾正從分類器獲得的噪音預測,提供精煉后的標簽:通過高置信度預測檢驗低置信度預測。采用一個GCN來建立高置信度和低置信度片段之間的關系。一共有兩種圖,一個是利用特征相似性,另一個利用時間連續性,從這兩個維度解決偽標簽問題。在圖中,片段被抽象為頂點,異常信息在邊上傳播。利用特征相似度和時間連續性來糾正label。
- Classification階段:動作分類器用cleaned labels 重訓練動作分類器,生成更可靠地預測。3D-conv結構的C3D和雙流結構的TSN。
- Cleaning階段,訓練一個清理器 cleaner 來糾正從分類器獲得的噪音預測,提供精煉后的標簽:通過高置信度預測檢驗低置信度預測。采用一個GCN來建立高置信度和低置信度片段之間的關系。一共有兩種圖,一個是利用特征相似性,另一個利用時間連續性,從這兩個維度解決偽標簽問題。在圖中,片段被抽象為頂點,異常信息在邊上傳播。利用特征相似度和時間連續性來糾正label。
- 實驗:實驗部分,可以看到,雙流RGB效果是最好的,C3D次之,最差的是雙流Optical。在消融實驗中,Feature Similarity部分比Temporal Consistency起到的作用更重要。不過其實兩者效果差不太多。