Rosenbaum和Rubin於1983年提出了傾向得分的概念。
傾向得分(Propensity Score)定義為“個體在一組既定的協變量下,接受某種參與(Treatment)的可能性”。
它要解決的問題是,因為如果針對多個可觀察特征X進行對比匹配非常困難,所以,可將多維協變量X用一個一維變量——傾向得分P(x)來代替,這樣,研究者就只需要對單一的傾向得分變量進行匹配,從而大大減少了匹配的困難。
--百度百科
以公共衛生學為例,假設研究問題是吸煙對於大眾健康的影響,研究人員常常得到的數據是觀察研究數據,而不是隨機對照實驗數據(Randomized Controlled Trial data),因為吸煙者的行為和結果,以及不吸煙者的行為和結果,是很容易觀察到的。但如果要進行隨機對照實驗,招收大量被試,然后隨機分配到吸煙組和不吸煙組,這種實驗設計不太容易實現,也並不符合科研倫理。這種情況下觀察研究是最合適的研究方法。但是面對最容易獲得的觀察研究數據,如果不加調整,很容易獲得錯誤的結論,比如拿吸煙組健康狀況最好的一些人和不吸煙組健康狀況最不好的一些人作對比,得出吸煙對於健康並無負面影響的結論。從統計學角度分析原因,這是因為觀察研究並未采用隨機分組的方法,無法基於大數定理的作用,在實驗組和對照組之間削弱混雜變量的影響,很容易產生系統性的偏差。傾向評分匹配就是用來解決這個問題,消除組別之間的干擾因素。
為什么要做?
1.解決樣本選擇性偏差
2.遺漏關鍵變量造成的內生性問題
什么時候需要做?--應用場景
- 實驗研究:有實驗組、對照組
- 政策研究:對比政策前后的變化
- 其他需要對比兩組、多組樣本的情況
原理:
選擇性偏誤
實證研究中,由於存在很多其他變量混淆自變量和因變量之間的關系,研究者很難直接探索二者之間的凈效果(net effects)。
這些混淆變量的影響通常被稱為選擇性誤差(selectionbias)。由於個體通常會根據其參加項目的預期收益而自我選擇是否參加項目,導致對平均處理效應的估計帶來困難。
條件獨立假設
控制住所有控制變量(協變量),因變量與分到實驗組還是對照組無關。
匹配得分
由於選擇兩組在很多協變量上一致的樣本很困難,則將很多協變量轉換成一個變量的得分,再選擇兩組得分相同或相近的樣本。
多個協變量生成一個得分,最常用的模型是Logistic回歸。
