分層條件關系網絡在視頻問答VideoQA中的應用:CVPR2020論文解析
Hierarchical Conditional Relation Networks for Video Question Answering
論文鏈接:https://arxiv.org/pdf/2002.10698.pdf
摘要
視頻問答(VideoQA)具有挑戰性,因為它需要建模能力來提取動態視覺偽影和遠距離關系,並將它們與語言概念相關聯。本文介紹了一種通用的可重復使用的神經單元,稱為條件關系網絡(CRN),它作為構建塊來構建更復雜的視頻表示和推理結構。CRN以一個張量對象數組和一個條件特征作為輸入,並計算一個編碼輸出對象數組。模型構建成為這些可重用單元的復制、重新排列和堆疊的簡單練習,用於不同的模式和上下文信息。因此,該設計支持高階關系和多步推理。VideoQA的最終架構是一個CRN層次結構,其分支表示子視頻或剪輯,所有分支都與上下文條件共享相同的問題。本文對知名數據集的評估取得了新的SoTA結果,展示了在復雜領域(如VideoQA)上構建通用推理單元的影響。
1. Introduction
回答關於視頻的自然問題是認知能力的有力證明。該任務涉及在語言線索的合成語義指導下獲取和操作時空視覺表征[7,17,20,30,33,36]。由於問題可能不受約束,VideoQA需要深入的建模能力,以分層方式編碼和表示關鍵的視頻屬性,如對象持久性、運動pro-files、長時間動作和可變長度時間關系。對於VideoQA來說,理想情況下,可視化表示應該是特定的問題並准備好答案。
目前用於QA視頻建模的方法是構建神經架構,其中每個子系統要么是為特定的定制目的設計的,要么是為特定的數據模式設計的。由於這種特殊性,這種手工構建的體系結構對於數據形態的變化[17]、不同的視頻長度[24]或問題類型(如幀QA[20]與動作計數[6])往往是最佳的。這導致了異構網絡的激增。
在這項工作中,本文提出了一個通用的可重復使用的神經單元,稱為條件關系網絡(CRN),它將對象數組封裝並轉換成一個新的基於上下文特征的數組。該單元計算輸入對象之間的稀疏高階關系,然后通過特定上下文調制編碼(參見圖2)。CRN的靈活性及其封裝設計使得它可以被復制和分層,以直接的方式形成深層的條件關系網絡(HCRN)。
因此,疊層單元提供了視頻對象關系知識的語境化重新定義——以階段性的方式,它將外觀特征與剪輯活動流和語言語境相結合,並通過整合整個視頻運動和語言特征的語境進行跟蹤。由此產生的HCRN是同質的,符合網絡的設計理念,如InceptionNet[31]、ResNet[9]和FiLM[27]。
crn的層次結構如下:在最低層次上,crn對剪輯中的幀外觀之間的關系進行編碼,並將剪輯運動作為上下文進行集成;該輸出在下一階段由crn進行處理,crn現在集成在語言上下文中;在下一階段,CRN捕獲剪輯編碼之間的關系,並作為上下文集成在視頻運動中;在最后階段,CRN將視頻編碼與語言特征作為上下文集成(參見圖3)。該模型通過允許crn分層堆疊,自然地支持視頻和關系推理中的分層結構建模;通過允許分階段引入適當的上下文,該模型處理多模式融合和多步驟推理。
對於長視頻,可以添加進一步的層次結構級別,以實現遠距離幀之間關系的編碼。本文展示了HCRN在回答主要視頻qa數據集中的問題的能力。四層CRN單元的層次結構在所有的VideoQA任務中都能獲得良好的答案准確性。值得注意的是,它在涉及外貌、動作、狀態轉換、時間關系或動作重復的問題上一直表現良好,證明了模型可以分析和把所有這些渠道的信息結合起來。此外,HCRN可以很好地擴展到較長的視頻,只需添加一個額外的層。
圖1展示了幾個典型的例子,這些例子對於視覺問題交互的基線是困難的,但是可以通過本文的模型來處理。本文的模型和結果證明了建立支持本機多模態交互的通用神經推理單元對提高VideoQA模型的魯棒性和泛化能力的影響。
2. Related Work
本文提出的HCRN模型通過解決兩個關鍵挑戰來推進VideoQA的發展:
(1) 有效地將視頻表示為各種互補因素的混合體,包括外觀、運動和關系,以及
(2) 有效地允許這些視覺特征與語言查詢的交互。
Spatio-temporal video representation
本文的HCRN模型是在這些趨勢的基礎上發展起來的,它允許視頻信息的所有三個通道,即外觀、運動和關系,在分層多尺度框架的每一步中迭代地相互作用和補充。 HCRN將調節因子從已確定的信息中分離出來,因此它更有效,也更靈活地使操作者適應調節類型。時間層次已經被用於視頻分析[22],最近用遞歸網絡[25,1]和圖網絡[23]。然而,本文相信本文是第一個考慮多模式的層次交互,包括視頻問答的語言提示。
Linguistic query–visual feature interaction in VideoQA
HCRN模型支持將語言線索作為語境因素對視頻特征進行條件化處理。這使得語言線索比任何可用的方法都能更早、更深入地參與視頻呈現結構。
Neural building blocks
在VideoQA領域之外,CRN單元與其他通用的神經構建塊共享神經架構一致性的理想,例如InceptionNet中的塊[31]、ResNet中的剩余塊[9]、RNN中的遞歸塊、影像中的條件線性層[27]和神經矩陣網中的矩陣矩陣塊[5]。本文的CRN通過假設一個支持條件關系推理的數組到數組塊,並且可以重用來構建視覺和語言處理中的其他用途的網絡,從而顯著地背離了這些設計。
3. Method
VideoQA的目標是根據一個自然問題q,從videoV中推斷出答案a。答案a可以在一個答案空間a中找到,該回答空間a是為開放式問題預先定義的一組可能的答案,或者在多選題的情況下,可以在一個候選答案列表中找到。形式上,VideoQA可以表述如下:
Visual representation
Linguistic representation
通過這些表示,本文現在描述本文的新的VideoQA層次結構(見圖3)。在第3.1節中,本文首先介紹了作為架構構建塊的核心組成計算單元。在下面的小節中,本文建議將F設計為一個逐層網絡架構,可以通過簡單地以特定方式堆疊核心單元來構建。
3.1. Conditional Relation Network Unit
本文引入了一個可重用的計算單元,稱為條件關系網絡(CRN),它將n個對象的數組
和一個條件特征c-都放在同一向量空間Rd或張量空間
中作為輸入。CRN生成一個相同維度的對象的輸出數組,其中包含給定全局上下文的輸入特征的高階對象關系。在Alg算法中給出了CRN單元的運算1和圖2中的視覺效果。表1總結了這些演示文稿中使用的符號。
3.2. Hierarchical Conditional Relation Networks
本文使用CRN塊構建一個深度網絡架構,利用視頻序列的內在特征,即時間關系、運動和視頻結構層次,並支持由語言問題引導的推理。本文將提出的網絡架構稱為層次條件關系網絡(HCRN)(見圖3)。通過堆疊可重復使用的核心單元來設計HCRN的部分靈感來自於現代CNN網絡架構,其中InceptionNet[31]和ResNet[9]是最著名的例子。
3.3. Answer Decoders and Loss Functions
在[10,30,6]之后,本文根據任務采用不同的應答解碼器。開放式問題被視為多標簽分類問題。為此,本文采用一個分類法,將檢索到的信息組合作為輸入。 對於多選題類型(如TGIF-QA中的重復動作和狀態轉換),每個候選答案的處理方式與問題相同。具體來說,本文使用共享參數HCRNs作為語言提示,無論是問題還是每個候選答案。
3.4. Complexity Analysis
本文在這里提供一個簡要的分析,留下詳細的衍生補充。對於固定采樣分辨率t,CRN的一次前向通過將花費kmax中的二次時間。對於長度n、特征尺寸F的輸入陣列,該單元產生具有相同特征尺寸的大小kmax-1的輸出陣列。HCRN的總體復雜性取決於每個CRN單元的設計選擇和CRN單元的具體布置。為了清楚起見,讓t=2和kmax=n-1,這在以后的實驗中被發現是有效的。假設有N個長度為T的剪輯,制作長度為L=NT的視頻。圖3的2級架構需要2t LF時間計算最低層的crn,2NLF時間計算第二層,共2(T+N)LF時間。
4. Experiments Results
4.1. Datasets
TGIF-QA datasets,MSVD-QA datasets,MSRVTT-QA datasets。
本文使用准確度作為所有實驗的評估指標,除了TGIF-QA數據集上應用均方誤差(MSE)的重復計數。
4.2. Implementation Details
視頻被分割成8個片段,每個片段默認包含16個幀。MSRVTT-QA中的長視頻還被分割成24個片段,以評估處理非常長的序列的能力。除非另有說明,否則默認設置為圖3所示的2級HCRN,d=512,t=1。本文最初以的學習率訓練模型,每10個階段衰減一半。所有實驗在25個階段后終止,報告的結果在給出最佳驗證精度的階段。該模型的Pytorch實現可以在線獲得。
4.3. Results
TGIF-QA的結果匯總在表2中,MSVD-QA和MSRVTT-QA的結果匯總在圖4中。報告的競爭對手數量取自原始文件和[6]。很明顯,本文的模型在所有數據集的所有任務上都始終優於或優於SoTA模型。當需要強大的時間推理時,即TGIF-QA中涉及動作和轉換的問題時,這些改進尤其明顯。這些結果證實了同時考慮短期和長期時間關系對找到正確答案的重要性。
為了更深入地了解本文的模型,本文對TGIF-QA進行了廣泛的消融研究,並進行了廣泛的配置。結果見表4。全2級HCRN表示圖3的全模型,kmax=n−1,t=2。總的來說,本文發現燒蝕任何設計組件或CRN單元都會降低時間推理任務(動作、轉換和動作計數)的性能。具體效果如下。
本文在MSRVTT-QA數據集中的長視頻上測試HCRN的可伸縮性,該數據集被組織成24個片段(比其他兩個數據集長3倍)。本文考慮兩種設置:I 2級層次,24個剪輯→1vid:模型如圖3所示,其中24個剪輯級CRN后面跟着一個視頻級CRN。I三級分層,24個剪輯→4個子視頻→1個子視頻:從24個剪輯開始,如在二級分層中,本文將24個剪輯分成4個子視頻,每個子視頻由6個連續的剪輯組成,形成3級分層。這兩個模型的設計參數數量相似,約為50米。結果見表5。與現有的處理長視頻的方法不同,本文的方法通過提供更深層的層次結構來擴展,如第3.4節中理論分析的那樣。使用更深層的層次結構有望顯著減少HCRN的訓練時間和推理時間,特別是在視頻較長的情況下。在本文的實驗中,本文通過從2級HCRN到3級HCRN的訓練和推理時間減少了4倍,同時保持了相同的性能。
5. Conclusions
介紹了一種通用的神經網絡單元條件關系網絡(CRNs)和一種以CRNs為構建塊的視頻質量保證分層網絡的構造方法。CRN是一個關系變換器,它根據上下文特征將一個張量對象數組封裝並映射成一個同類的新數組。在此過程中,輸入對象之間的高階關系被條件特征編碼和調制。該設計允許靈活構建復雜的結構,如堆棧和層次結構,並支持迭代推理,使其適用於視頻等多模態和結構化領域的質量保證。在多個視頻質量保證數據集(TGIF-QA、MSVD-QA、MSRVTT-QA)上對HCRN進行評估,證明其具有競爭性推理能力。與基於時間注意的視頻對象選擇方法不同,HCRN側重於視頻中關系和層次的建模。這種方法和設計選擇上的差異帶來了顯著的好處。CRN單元可以通過注意機制進一步增強,以覆蓋更好的對象選擇能力,從而可以進一步改進諸如幀QA之類的相關任務。在VideoQA中對CRN的檢查突出了構建支持本機多模態交互的通用神經推理單元在提高視覺推理穩健性方面的重要性。本文要強調的是,該單元是通用的,因此適用於其他推理任務,本文將對此進行探討。這包括考慮對TVQA[17]和MovieQA[33]任務至關重要的附帶語言頻道的擴展。