有點值得注意的是,直到最近,概率圖形模型領域的研究人員基本上沒有意識到copula的多變量建模框架。當在實值測量的背景下考慮圖形模型的局限性時,這種無知甚至更加困惑:雖然概率圖形模型在概念上是一般性的,但實際考慮幾乎總是迫使模型的局部定量部分為簡單形式。實際上,當面對無法用多元高斯或其混合物很好地捕獲的數據時,絕大多數工作首先將數據離散化,然后利用在離散情況下取得的令人印象深刻的進展。
copula社區的許多人也不了解與機器學習領域共生的潛力。十年前,Kurowicka和Cooke [23]確定了藤蔓模型和貝葉斯網絡(一種有向圖形模型)之間的關系,后來這被推廣[24,16]以產生高維連通體結構。然而,沒有算法創新是從機器學習中借鑒或啟發的,其目的是例如從部分觀察到的數據中自動推斷出這些模型的結構。
關於為什么要追求兩個領域之間的共生,有根本原因。圖形模型固有地針對高維域,並且已經在從數據學習這樣的模型方面取得了實質性進展。不幸的是,在實際情景中,這個領域仍然很大程度上是殘障的。相比之下,copulas為實值分布建模提供了靈活的機制。然而,大部分領域仍然專注於雙變量情況,或者在實踐中僅限於少數變量(例外情況將在后面討論)。因此,這兩個框架相輔相成彼此以一種為富有成效的協同創新提供機會的方式。 copula框架和機器學習領域之間的協同作用的需求遠遠超過概率圖形模型。依賴度量,尤其是Shannon的互信息,是眾多機器學習算法的基礎,如聚類,特征選擇,結構學習,因果檢測等等。眾所周知,copula與這種依賴概念密切相關,兩個領域的會議可以產生用於測量高維度依賴性的新技術。
直到最近,Kirshner的工作[21]打破了兩個領域之間的無知障礙,將Darsow的馬爾可夫算子[7]推廣為樹狀結構模型。從那以后,對copula的興趣一直在穩步增長,並且在過去的幾年中,機器學習中出現了一系列基於copula的創新結構。本文的目的是調查這些作品。而不是針對完整的覆蓋范圍,重點是多變量結構以及信息估計。由於缺乏空間,一般來說,不會討論以更多插件方式使用copula的其他工作。對於感興趣的讀者,這些包括基於copula的獨立成分分析[35],成分分析[27,2],混合模型(例如[14,51]),依賴性尋求聚類[40]。同樣非常感興趣但未在此處介紹的是使用copula作為其中的特定實例
累積分布網絡模型[17,45]。最后,這項調查不包括計算統計界出現的申請文件或作品,而且更容易為copula研究人員所熟悉。...