生存分析 三大塊內容:
1,描述性的
生存率、中位生存期、生存曲線等,常用Kaplan-meier法
2,比較分析
兩組的生存曲線是否有差別,log-rank檢驗(單個因素)
3,cox比例風險回歸
類似logistic回歸,多個變量對Y的影響,得到一個概率值,只不過加了時間
多花點時間聊聊cox的感受
首先理解一個概念
風險函數(hazard function)h(t)=f(t)/S(t)
f(t)為瞬時死亡率,其實就是時間趨近於零時刻的死亡率,又稱死亡概率密度函數,曲線下面積為1.
S(t)為生存率:a, 若無刪失,表示為t時刻存活人數/總觀察人數
b,若有刪失,計算為各個時段下生存概率的乘積( 生存概率:活過該年的人數/年初人數)
象形的理解,瞬時死亡率只受到某時刻,死亡人數的影響,若t時刻死亡10人,瞬時死亡率肯定高於t+1時刻死亡1人
而,生存率,會越來越低。
對於COX風險比例模型,h(t,x)=h0(t)exp(βX)=h0(t)exp(β1x1+β2x2+```+βx)
前半部分為基線風險函數,不需要特定分布,為非參
后半部分相當於對多重線性回歸的輸出進行了次方變換,保證了 正值和 單調性 (參數模型)
兩者相乘即為COX,(半參)
那么聊聊參數估計
對偏似然函數 ,采用極大似然估計
先不管這個所謂偏似然函數,極大似然估計,思想是使得當前樣本出現的概率最大。
比如,有三個人X1,X2,X3,分別在t=1,2,3時刻 死去
當t=1時,我們希望模型的似然函數最大,起碼有max(1,X1) min(1,X2) min(1,X3)
我們可以構建這樣的似然函數:
當t=2,
但是t=3時,沒有分母可以使用。
所以我們在分母加入了分子本身作為平滑,但是不影響整個分數值得大小趨勢。
最后將這三個似然函數連乘:
消去h0(t),就可以理解課本上得公式了
對於PH(比例風險(Proportional hazards)假設,即協變量對生存率的影響不隨時間的改變而改變
對協變量檢驗是否滿足PH假設
1,分類變量,圖示法:生存曲線是否交叉,log minus log是否交叉(在cox regression中將分類變量放入 層(stata)中,save )
2,連續性變量,Schoenfeld殘差法,協變量偏殘差(cox--save)與時間秩次(transform--rank case)是否有相關關系,散點圖擬合平滑曲線是否有上升下降趨勢。
若協變量不滿足PH假設,采用時依系數法,即擬合cox函數時,加入一項 x·ln(time)協變量與時間的對數乘積作為交互項,看該項系數是否有統計學差異,若有解釋HR應該這樣
參考:https://www.cnblogs.com/hapjin/p/6623431.html
https://blog.csdn.net/qq_37523061/article/details/84635614
https://www.mediecogroup.com/method_topic_article_detail/318/?ty=methods
https://www.mediecogroup.com/method_topic_article_detail/320/?ty=methods
https://www.mediecogroup.com/method_topic_article_detail/364/