Counterfactual VQA: A Cause-Effect Look at Language Bias
Abstract
VQA模型可能傾向於依賴語言偏見作為切入點,因此無法從視覺和語言兩個方面充分學習多模態知識。最近提出了一種在推理過程中排除語言先驗的借記方法。然而,他們未能從整體上理清“好”的語境和“壞”的語言偏見。在本文中,我們研究了如何減輕VQA中的語言偏見。在因果效應的驅動下,我們提出了一個新的反事實推理框架,它使我們能夠將語言偏差作為問題對答案的直接因果效應,並通過從總因果效應中減去直接語言效應來減少語言偏差。實驗表明,我們提出的反現實差異框架1)對各種VQA骨架模型和融合策略具有通用性;2)在對語言偏差敏感的VQA-CP數據集上取得了競爭性的性能,而在沒有任何增廣數據的情況下,在均衡的VQA-v2數據集上表現良好。
1 Introduction
視覺問答(VQA)已經成為支撐許多前沿交互式人工智能系統的基本構件,如視覺對話、視覺和語言導航[6]和視覺常識搜索。VQA系統需要執行可視化分析、語言理解和多模態推理。最近的研究發現VQA模型可能依賴於虛假的語言相關性而不是多模態推理。例如,在VQA v1.0數據集上,只需回答與運動相關的問題“網球”和問題“你看到了嗎…”回答“是”,就可以獲得大約40%和90%的准確率。因此,如果簡單地記憶訓練數據中的強語言先驗,特別是在最近提出的VQA-CP數據集上,VQA模型將無法很好地推廣,因為這些先驗在訓練集和測試集上是完全不同的。
減輕語言偏見的一個簡單的解決方案是通過使用額外的注釋或數據擴充來增強訓練數據。特別是,視覺和文本注釋被用來提高視覺基礎能力。此外,反事實訓練樣本生成有助於平衡訓練數據,並在VQA-CP上比其他借記方法有較大的優勢。這些方法證明了基於DEBIASED訓練的效果,提高了VQA模型的泛化能力。然而,值得注意的是,VQA-CP的提出是為了驗證VQA模型是否能將所學的視覺知識和記憶化的語言先驗知識分離開來。因此,如何在一個欠偏訓練下生成無偏參考成為VQA的一大挑戰。另一個流行的解決方案是在訓練集中使用一個單獨的只問問題的分支來學習語言。在測試階段,通過去除額外的分支來減輕優先級。然而,我們認為語言優先由“壞”的語言偏見(例如,將香蕉的顏色與主要顏色“黃色”結合起來)和“好”的語言語境(例如,根據問題類型“什么顏色”縮小回答空間)組成。簡單地排除額外的分支不能利用好的上下文。事實上,對於最近的去偏見模型來說,將好與壞從整體中分離出來仍然是一個挑戰。
基於反事實推理和因果效應,我們提出了一個新的反事實推理框架CF-VQA來減少VQA中的語言偏見。總的來說,我們將語言偏差描述為問題對答案的直接因果效應,並通過從總的因果效應中減去直接的語言效應來減輕這種偏差。如圖1所示,我們引入了兩種情景,傳統的VQA和反事實的VQA,分別用來估計總的因果效應和直接的語言效應。這兩種情況定義如下:
Conventional VQA:如果機器聽到問題Q,看到圖像V並提取多模態知識K,然后回答答案A。
Counterfactual VQA:如果機器聽到問題Q,但是沒有看到圖像V或者沒有提取多模態知識K,那么將會怎么回答A。
傳統的VQA當Q和V都起作用的時候能夠描述答案。在這種情況下,我們能夠猜測V和Q在A上面的總體因果關系。然而,傳統的vqa不能將單峰語言關聯和多峰推理(即直接和間接效應)分開。因此,我們考慮以下反事實問題:“如果機器沒有進行多模態推理,會發生什么?”,這個問題的答案可以通過想象一個場景來獲得,在這個場景中機器聽到Q,但是沒有多模態知識K在沒有處理的情況下進行干預,因為V和Q無法被理解的。K無法給Q響應,VQA模型只能依賴於單模態影響。因此,語言偏見可以通過估計Q在A上的直接因果效應,即純語言效應來識別。訓練階段遵循基於語言優先級的方法,該方法使用流行的VQA模型和單模態分支訓練集成模型。在測試階段,CF-VQA使用去偏見因果效應進行推理,從總效應中減去純語言效應。也許令人驚訝的是,最近基於語言先驗的方法可以作為特例進一步統一到我們提出的反事實推理框架中。特別是,CF-VQA可以很容易地將RUBi提高7.5%,只需再增加一個可學習的參數。實驗結果表明,CF-VQA在VQA-CP數據集上大幅度地優於無數據論證的方法,而在平衡的VQA-v2數據集上保持穩定。
本文的主要貢獻有三個方面。首先,我們的反事實推理框架是第一個將VQA中的語言偏見模擬為因果效應的框架。第二,我們提供了一個新的因果關系為基礎的解釋最近的去偏見VQA工作。第三,我們的因果圖是通用的,適用於不同的基線VQA架構和融合策略。
2 Related Work
2.1 Language Bias in VQA
可以從兩個方面來解釋:第一,問題和答案之間存在着很強的相關性,這反映了“語言優先”。在VQA v1.0數據集上,簡單回答“網球”與運動相關的問題可以獲得大約40%的准確率。其次,提問者傾向於詢問圖像中看到的對象,這導致了“視覺優先偏見”。在vqav1.0數據集上,只需對所有問題回答“是”就可以獲得近90%的准確率。在這兩種情況下,機器可能只關注問題,而不是視覺內容。這種嚴重的捷徑限制了VQA模型的泛化,特別是當測試場景與訓練場景有很大不同時。
2.2 Debiasing Strategies in VQA
最近,人們提出了一種新的VQA數據,即變先驗條件下的可視化問答模型(VQA-CP)。在VQA-CP中,在訓練和兩個測試階段,每個問題類型的答案分布是不同的。最近大多數減少VQA語言偏誤的解決方案可分為三類,即加強視覺基礎,削弱語言優先,以及內隱/外顯數據論證。首先,利用人類視覺和文本解釋來加強VQA中的視覺基礎。第二,基於集成的方法建議在對抗性學習或多任務學習下使用一個單獨的QA分支來捕獲語言先驗。第三,最近的工作自動生成額外的問題圖像對來平衡訓練數據的分布。本文將基於語言先驗的方法作為特例統一到我們提出的反事實推理框架中。
2.3 Causality-inspired Computer Vision
反事實思維和因果推理啟發了計算機視覺領域的一些研究,包括視覺解釋,場景圖生成,圖像識別,視頻分析,零鏡頭和少鏡頭學習,增量學習,表征學習,語義分割和視覺語言任務。特別是,在最近的VQA研究中,反事實學習被利用了。與這些產生反事實訓練樣本的工作不同,我們的因果關系研究側重於使用均勻偏差訓練數據的反事實推理。
3 Preliminaries
在本節中,我們將介紹使用過的因果關系概念。在下面,我們將隨機變量變量表示為大寫字母(例如X),並將其觀察值表示為小寫字母(例如x)。
Causal graph(因果圖)
反應變量之間的因果關系,用有向無環圖G={V,E}表示,其中V表示變量集,E表示因果關系,下圖顯示了三個變量組成的因果關系示圖。

(1)如果X對Y直接影響,則稱Y是X的兒子(2)如果X通過M間接影響Y則稱M為X和Y之間的調解者。
Counterfactual notations(反事實符號)
用於將因果圖轉化為公式。
如上圖,如果X設置為x,M設置為m,則Y可以表示為:
在實際的場景中上述公式的m表示為:
在反事實的情況下,X對於M和Y而言是設置為其他的值,在反世界的世界中X可以同事設置為\(x\)和\(x^*\)不同的值,如下圖所示(白色表示\(X=x\),灰色表示\(X=x^*\)):

Causal effects(因果關系)
反映同一個體在兩種不同處理下兩種潛在結果的比較 。
將\(X=x\)表示為經過處理的條件,而\(X=x^*\)表示未經過處理的條件。
1.total effect(TE)總效應
當\(X=x\)和\(X=x^*\)兩種情況在\(X=x\)作用於\(Y\)上的影響:
2.natural direct effect(NDE)自然直接效應,含義為當中間者(這里是M)不通時,X從\(x^*\)轉化為\(x\)時對Y的影響:
3.total indirect effect(TIE)總間接效應:
當然總效應也可以分解成下面兩項:
2.natural indirect effect(NIE)自然間接效應,含義是當直接者(這里是X)不通時,中間者M從\(M_{x^*}\)轉化為\(M_{x}\)后對Y的影響:
3.total direct effect(TDE)總直接效應:
4 Cause-Effect Look at VQA
按照通常的公式,我們將VQA任務定義為一個多類分類問題。在給定一個圖像\(V=v\)和一個問題\(Q=q\)的情況下,VQA模型需要從候選集合\(A={a}\)中選擇一個答案。
4.1 Cause-Effect Look
VQA的因果圖如下所示 ,Q為問題,V為圖像,K為多模態的知識。V和Q在答案A上的影響可以分為多模態影響和單模態單獨影響。

根據反事實符號,當\(V=v\),\(Q=q\)時可以將問題a的分數表示為:
為了簡單性省略a:
相似的K可以表示為:
那么VQA的因果圖可以表示為
其中\(k=K_{v,q}\)
那么TE(總效應)就為:
正因為VQA的模型能夠受到問題和答案之間的偽相關的影響,因此我們要消除這種偏見,就是要相處問題對答案的直接影響,為了實現這一目標,我們提出了反事實VQA來估計\(Q=q\)在\(A=a\)上通過阻斷\(K\)和\(V\)的效應的因果效應。反事實的VQA藐視一個\(Q\)為\(q\),\(K\)為\(k^*\),\(V=v^*\),由於中介對輸入的響應被阻斷,模型只能依賴給定的問題進行決策,因此我們得到了一個NDE(自然直接效應)。下圖左邊是傳統的VQA模型,右邊是反事實VQA模型。

通過反事實VQA得到的自然直接效應為(即捕捉到的語言偏見):
因此消除語言偏見可以視為TE-NDE:
我們使用TIE中最大概率的值來進行推理,而不是原本的\(P(a|v,q)\)
4.2 Implementation
Parameterization
計算\(Z_{q,v,k}\)可以表示為如下
有因為神經網絡無法處理空的數據集,因此在反事實VQA中的空集數據使用一個以等概率隨機猜測的值替代。


其中\(c\)為可學習的參數,我們使用均勻分布假設有兩個原因,首先,對於人類而言,如果我們完全不知道具體的處理方法或問題類型和內容,我們就會隨機猜測一個。第二,在計算\(Q\)的NDE時,均勻分布可以保證估計的安全性。我們進一步驗證了消融研究中的假設。
Fusion Strategies
我們在這里對函數\(h()\)有兩種融合策略:
-
Harmonic (HM)
\[h(Z_q,Z_v,Z_k)=log\frac{Z_{HM}}{1+Z_{HM}} \]其中\(Z_{HM}=\sigma(Z_q)\cdot\sigma(Z_v)\cdot\sigma(Z_k)\)
-
SUM
\[h(Z_q,Z_v,Z_k)=log\sigma(Z_{SUM}) \]其中\(Z_{SUM}=Z_q+Z_v+Z_k\)
Training
損失函數為:
學習參數\(c\)控制\(Z_{q,v^*,k^*}\)的數據分布的跨度。我們假設NDE的跨度應該和TE的相同,否則一個不恰當的結果將導致公式\(TIE=TE-NDE\)變成TE或者NDE主宰。因此我們使用Kullback-Leibler divergence來預測\(c\)。
其中\(p(a|q,v,k)=softmax(Z_{q,v,k})\),\(p(a|q,v^*,k^*)=softmax(Z_{q,v^*,k^*})\),其中\(c\)的更新只與\(L_{kl}\)相關,最終的總損失為:
Inference
如第4.1節所述,我們使用消除偏見因果效應進行推斷,其實現如下:
4.3 Revisiting RUBi and Learned-Mixin
之前的模型與CF-VQA的差別:

這些方法可以統一到我們的反現實框架中,(1)遵循一個簡化的因果圖(圖5(a)),沒有直接的路徑\(V→A\)、 (2)利用自然間接效應(NIE)進行推斷。

