因果推斷--概念理解


  1. 因果推斷方法可以被分為兩大類:貝葉斯網絡結構學習算法和基於加噪聲模型的因果推斷算法。具有完整數據的因果推斷方法可以被分為兩大類: 基於估計馬爾可夫等價類的貝葉斯網絡結構學習算法和基於加性噪聲模型的因果推斷算法。
  2. 貝葉斯網絡結構學習算法主要有兩種方法.第一種是基於打分-搜索的貝葉斯網絡結構學習方法,第二種是基於依賴分析的學習算法.缺點:,這兩種方法都無法識別 一個因果網絡中存在的馬爾可夫等價類,特別是這類方法無法 區分 X→Y 和 Y→X 兩種情況。
  3. 在基於加噪聲模型的算法方面

線性:

Shohei等人提出了一種基於線性ANM的算法,可以從數據集中構建出具體的因果網絡圖,利用 ANM 在缺失數據因果推斷中數據填補上將變得更加簡易和准確。缺點:只適用於線性加噪聲模型,無法解決非線性問題.

非線性:

Hoyer等人提出了一種在基於非線性加噪聲模型的適用於連續數據的算法(ANM), Peters 等人對 ANM 算法進行了深一步的推廣,使之適用於離散型數據。缺點:非線性加噪聲模型算法都只適用很低維的數據集,一旦數據集的維度較大(n>8),准確度就會降到很低;

JonasPeters等人提出了一種基於非線性ANM的算法去解決離散數據的問題,缺點:非線性加噪聲模型算法都只適用很低維的數據集,一旦數據集的維度較大(n>8),准確度就會降到很低;

JanzingD等人提出了一種基於信息熵的因果推斷算法IGCI,這種算法可以適用於有無噪聲的情況,相對於ANM 算法,IGCI 算法能很好地控制判斷率,並且在判斷率高的時候其對無向圖邊的方向識別准確率要高於其余的因果推斷算法缺點:IGCI也無法處理高維數據,只要維數超過2,方法就失效.

缺失數據:

基於 EM 算法的評分—搜索方法和王雙成等人提出的基於依賴分析的 BN-GS 算法。缺點:不能識別到一個准確的因果圖,缺點原因:算法都是傾向於擬合數據的( 條件) 概率分布或提高預測的准確性而不太關注局部的因果機制,換句話說,對局部邊的方向依然沒有准確的判斷。

  1. 因果網絡是表示變量間概率依賴關系的有向無環圖(DAG),它可表示為一個三元組G=(N,E,P).其中,N={x1,x2,...,xn}表示DAG中的所有節點的集合,每個節點代表一個變量(屬性).E={e(xi,xj)|xi,xj∈N}表示DAG中每兩個節點間的有向邊的集合.其中,e(xi,xj)表示xi,xj間存在依賴關系xi→xj.P={P(xi|xj)|xi,xj∈N}是一組條件概率的集合,其中P(xi|xj)表示xi的父節點集xj對xi的影響.
  2. d-分離准則:設X、Y、Z是因果無向圖G中任意3個互不相交的節點的集合,稱Z在圖G中d-分離節點集X和Y,記為X⊥Y|Z,如果對任意的從X的節點到Y的一個節點的路P均被Z阻斷,也就是路徑P上存在一個結點w滿足下列其中一個條件:(1)w在P上有—個碰撞箭頭,即→w←(此時稱w為碰撞點),且w及其后代結點都不在Z中.(2)w在P上無碰撞箭頭,即→w→或←w←或←w→,且w∈Z。
  3. 條件獨立性測試:設X、Y、Z是因果無向圖G中任意3個互不相交的節點的集合,如果Zd-分離節點集X和Y,那么在給定Z的情況下,X和Y統計獨立.
  4. 互信息:描述了某個變量取值對另外一個變量的取值能力.兩個變量間的互信息越大,表明它們之間的關系緊密,反則越小.當且僅當X和Y互相獨立的時候,它們之間的互信息I(X;Y)=0.
  5. ANM定義:若X,Y∈Z,存在噪聲變量N∈Z和映射函數F(Z→Z)滿足以下條件,則稱X到Y能符合ANM;否則,X到Y不能符合ANM。Y=F(X)+N,N⊥X(1)其中:N⊥X表示N與X統計獨立。文獻[5,6,14]基於ANM利用如下因果推斷准則判斷變量間的因果方向:若X到Y符合一個ANM,而Y到X不能符合一個ANM,則稱X是Y的原因,Y是X的結果,即X、Y方向判定成X→Y(Y→X同理判定);若X到Y和Y到X都符合ANM,那么X、Y之間的方向是可逆的(即XY);若X到Y和Y到X不能符合ANM,那么X、Y之間的方向無法確定,需要其他方法判斷。

[ 5] Shimizu S,Hoyer P O,Hyvarinen A,et al. A linear non-Gaussian acyclic model for causal discovery[J] . The Journal of Machine Learning Research, 2006, 7( 4) :2003-2030.

[ 6] Hoyer P O,Janzing D,Moolj J M,et al. Nonlinear causal discovery with additive noise models[C]/ /Advances in Neural Information Processing Systems.[S. l. ]: MIT Press, 2009:689-696.

[ 14]Zhang Kun,Hyvrinen A. Causality discovery with additive disturbances: an informationtheoretical perspective[C]/ /Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2009:570-585.

  1. 貝葉斯網絡結構學習以變量(節點)的條件概率(后驗概率)作為學習參數的缺點:條件概率只是在聯合概率分布下刻畫變量間的聯系,沒有真實反映變量之間的因果信息。
  2. 最大似然估計的優點:最大似然估計是統計意義上最優的參數估計方法,它比其他可選擇的參數估計方法更加簡單有效,特別在樣本增加時,其收斂性質會更好。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM