生存分析中的影響變量又叫自變量,協變量,伴隨變量。
CMH方法會把等級變量當成分類變量處理,忽略的順序,卡方檢驗是直接忽略協變量。
如果沒有Censor數據,可以使用Wilcoxon秩檢驗
生存率也叫累積生存概率,生存函數。是生存時間長於t的概率。這個並不是表面的生存的意思,而是事件發生率。
1. 生存函數
生存函數S(t) :subject 存活長於某個規定時間 t 的概率,即S(t)給出了隨機變量T大於規定時間t的概率。
生存函數S(t)=P(T>t),當 t=0 時,S(0) = P(T>0)=1,因為最初時間點,試驗剛開始時病人都活着,因此生存的概率為1;
當t=∞時,S(∞) = P(T>∞)=0,因為如果時間無限拉長,病人終究會死亡的,因此最后生存的概率為0。而且隨着t從0到∞,S(t)會越來越小。
1.1 KM曲線
也叫product-limit法(PL法),臨床中最常用。
1.2 Log-rank檢驗
比較生存時間是否有差異。是一種非參檢驗方法,不對時間的分布做假設。
H0: group之間的生存時間分布相同。時間分布相同意味着,風險在整個試驗期間或任意時點也是相似的,similar risk-adjusted event rates among groups not only for the clinical trial as a whole, but also for any arbitrary time point during the trial
H1: 在實驗期間,至少一個點之間的生存率不同。event rates differ among groups at one or more time points during the study。
dj / nj 相當於理論發生率,整個率乘以n1j是group A理論event次數。 O 和 E是總和,二者相減在除以V,看看這差值顯著不。
1的平方除以2就得到3中的統計量。就是上圖中的那個卡方計算。
-2Log(LR)是屬於參數檢驗,要求整個hazard在實驗期間不變,這個不太合理。
plots = (s,ls,lls)
- LLS圖近乎直接時,log-rank檢驗效能高。
- S圖有交叉時,Wilcoxon效能高。
- LS圖近乎直線時,-2Log(LR)效能高。
1.3 數據解讀
這張是生存率,沒啥好說的。
- Suivival生存率和Failed事件數都是累計的。
- Suivial計算:當天left人數也就是存活人數,除以當天的at risk人數(上一天的生存人數),再乘以上一天的Suivival(也就是累計生存率),得到現在累積生存率。例如: 21 / 22 * 0.92 = 0.87818.
- Timelist 和 wks關系,只在Event發生的時候,wks才會改變,否則就一直是當前這個。wks就是觀察到事件和Censor的時間。
這是累積事件發生率,就是 1- survival。
對比標1的那種圖即可得,wks和timelist之間的關系,在下一個wks發生之前,timelist一直對應當前這個數。因為wks就是記錄Event或Censor的。
data hsv; input vac $ pat wks x @@; cens = (wks < 1); wks = abs(wks); datalines; GD2 1 8 12 GD2 3 -12 10 GD2 6 -52 7 GD2 7 28 10 GD2 8 44 6 GD2 10 14 8 GD2 12 3 8 GD2 14 -52 9 GD2 15 35 11 GD2 18 6 13 GD2 20 12 7 GD2 23 -7 13 GD2 24 -52 9 GD2 26 -52 12 GD2 28 36 13 GD2 31 -52 8 GD2 33 9 10 GD2 34 -11 16 GD2 36 -52 6 GD2 39 15 14 GD2 40 13 13 GD2 42 21 13 GD2 44 -24 16 GD2 46 -52 13 GD2 48 28 9 PBO 2 15 9 PBO 4 -44 10 PBO 5 -2 12 PBO 9 8 7 PBO 11 12 7 PBO 13 -52 7 PBO 16 21 7 PBO 17 19 11 PBO 19 6 16 PBO 21 10 16 PBO 22 -15 6 PBO 25 4 15 PBO 27 -9 9 PBO 29 27 10 PBO 30 1 17 PBO 32 12 8 PBO 35 20 8 PBO 37 -32 8 PBO 38 15 8 PBO 41 5 14 PBO 43 35 13 PBO 45 28 9 PBO 47 6 15 ; ods html; proc lifetest data = hsv timelist = 1 to 48 by 1 outsurv = survival_rate ; time wks * cens(1); strata vac; ods output Quartiles = Quartiles (where=(percent=50)); ods output ProductLimitEstimates = survival_plots; ods output HomTests = _logtest_(where=(test = 'Log-Rank')); run;
proc lifetest data = hsv OUTCIF = B reduceout atrisk timelist = 0 to 48 by 1 ; time wks*cens(1) / EVENTCODE = 0; strata vac; run; proc lifetest data = hsv OUTCIF = c atrisk timelist = 0 to 48 by 1 ; time wks*cens(1) / EVENTCODE = 0; strata vac; run;
- 加了timelist后,要加reduceout,否則數據集中不會顯示timelist的。
- 那兩個OUTCIF配合,可以畫CIF曲線和Number of subject at risk 的bolck plot。
strata siteid/group=vac;
這個是指定stratified factor
75%是"生存率"等於75%的時間,這個是說"生存率"還沒有到75%。
這個生存率不是單純的生存死亡,而是時間從觀察到發生之間的時間。也就是事件發生率。
2. 風險函數
對time沒有假設要求,數值型和分類型協變量都可以,比如調整腫瘤患者的年齡,患病時長等。
Cox proportional hazards model is the way in which the hazard changes over time。
這個模型假設風險隨時間變化,這個很合理。同時假設the ratio of event hazards between two individuals之間是一致的,這就是proportional hazards假設。
hazard是事件發生時間的倒數,如預測6個月發生,hazard是1/6,單位是month。反過來說,風險不變條件下, 1 / hazard 就是event出現的時間。
2.1 proportional hazards假設
Hazard變,Hazard ratio變,但Hazard不隨時間變。這就是等比例風險假設。
檢驗方法:
plots = (s,ls,lls)
LLS圖不交叉,或
model wks*cens(1) = vac x var1*wks/ ties = exact;
加入和時間的交互項,不顯著。無交互作用說明,效應增量是相同的。
如果某個協變量不滿足等比例風險假設,可以分層,即:
STRATA age sex;
2.2
這是說加入不加入協變量模型的變化,Likelihood Ratio的變化是10.8,顯著,說明加了協變量后,模型擬合更好。
/ param = ref時, e-0.9次方是0.404,說明Drug 組,任意時點的hazard是placebo組的40%左右。
如果/ param = effect不可以直接這么算。
x是數值型協變量,1.193 - 1 = 19.3%,就是說x每增加一單位,hazard增加19.3%。
ties是說有數值相同的值,具體指定ties = ,看SAP.
proc phreg data = hsv; class vac(ref='PBO') / param = ref; model wks*cens(1) = vac x / ties = exact; run;