?p=21444

邏輯logistic回歸是研究中常用的方法,可以進行影響因素篩選、概率預測、分類等，例如醫學研究中高通里測序技術得到的數據給高維變量選擇問題帶來挑戰，懲罰logisitc回歸可以對高維數據進行變量選擇和系數估計，且其有效的算法保證了計算的可行性。方法本文介紹了常用的懲罰logistic算法如LASSO、嶺回歸。

方法

我們之前已經看到，用於估計參數模型參數的經典估計技術是使用最大似然法。更具體地說，

這里的目標函數只關注擬合優度。但通常，在計量經濟學中，我們相信簡單的理論比更復雜的理論更可取。所以我們想懲罰過於復雜的模型。

這主意不錯。計量經濟學教科書中經常提到這一點，但對於模型的選擇，通常不涉及推理。通常，我們使用最大似然法估計參數，然后使用AIC或BIC來比較兩個模型。Akaike（AIC）標准是基於

我們在左邊有一個擬合優度的度量，而在右邊，該罰則隨着模型的“復雜性”而增加。

這里，復雜性是使用的變量的數量。但是假設我們不做變量選擇，我們考慮所有協變量的回歸。定義

AIC是可以寫為

實際上，這就是我們的目標函數。更具體地說，我們將考慮

在這篇文章中，我想討論解決這種優化問題的數值算法，對於l1（嶺回歸）和l2（LASSO回歸）。

協變量的標准化

這里我們使用從急診室的病人那里觀察到的梗塞數據，我們想知道誰活了下來，得到一個預測模型。第一步是考慮所有協變量x_jxj的線性變換來標准化變量(帶有單位方差)

for(j in 1:7) X[,j] = (X[,j]-mean(X[,j]))/sd(X[,j])

嶺回歸

在運行一些代碼之前，回想一下我們想要解決如下問題

在考慮高斯變量對數似然的情況下，得到殘差的平方和，從而得到顯式解。但不是在邏輯回歸的情況下。
嶺回歸的啟發式方法如下圖所示。在背景中，我們可以可視化logistic回歸的（二維）對數似然，如果我們將優化問題作為約束優化問題重新布線，藍色圓圈就是我們的約束：

可以等效地寫（這是一個嚴格的凸問題）

因此，受約束的最大值應該在藍色的圓盤上

b0=bbeta[1]
beta=bbeta[-1]
sum(-y*log(1 + exp(-(b0+X%*%beta))) -
(1-y)*log(1 + exp(b0+X%*%beta)))}
u = seq(-4,4,length=251)
v = outer(u,u,function(x,y) LogLik(c(1,x,y)))
lines(u,sqrt(1-u^2),type="l",lwd=2,col="blue")
lines(u,-sqrt(1-u^2),type="l",lwd=2,col="blue")

讓我們考慮一下目標函數，下面的代碼

-sum(-y*log(1 + exp(-(b0+X%*%beta))) - (1-y)*
log(1 + exp(b0+X%*%beta)))+lambda*sum(beta^2)

為什么不嘗試一個標准的優化程序呢?我們提到過使用優化例程並不明智，因為它們強烈依賴於起點。

beta_init = lm(y~.,)$coefficients
for(i in 1:1000){
vpar[i,] = optim(par = beta_init*rnorm(8,1,2),
function(x) LogLik(x,lambda), method = "BFGS", control = list(abstol=1e-9))$par}
par(mfrow=c(1,2))
plot(density(vpar[,2])

顯然，即使我們更改起點，也似乎我們朝着相同的值收斂。可以認為這是最佳的。

然后將用於計算βλ的代碼

beta_init = lm(y~.,data )$coefficients
logistic_opt = optim(par = beta_init*0, function(x) LogLik(x,lambda),
method = "BFGS", control=list(abstol=1e-9))

我們可以將βλ的演化可視化為λ的函數

v_lambda = c(exp(seq(-2,5,length=61)))
plot(v_lambda,est_ridge[1,],col=colrs[1])
for(i in 2:7) lines(v_lambda,est_ridge[i,],

這看起來是有意義的:我們可以觀察到λ增加時的收縮。

Ridge，使用Netwon Raphson算法

我們已經看到，我們也可以使用Newton Raphson解決此問題。沒有懲罰項，算法是

其中

因此

然后是代碼

for(j in 1:7) X[,j] = (X[,j]-mean(X[,j]))/sd(X[,j])
for(s in 1:9){
pi = exp(X%*%beta[,s])/(1+exp(X%*%beta[,s]))
B = solve(t(X)%*%Delta%*%X+2*lambda*diag(ncol(X))) %*% (t(X)%*%Delta%*%z)
beta = cbind(beta,B)}
beta[,8:10]
[,1] [,2] [,3]
XInter 0.59619654 0.59619654 0.59619654
XFRCAR 0.09217848 0.09217848 0.09217848
XINCAR 0.77165707 0.77165707 0.77165707
XINSYS 0.69678521 0.69678521 0.69678521
XPRDIA -0.29575642 -0.29575642 -0.29575642
XPAPUL -0.23921101 -0.23921101 -0.23921101
XPVENT -0.33120792 -0.33120792 -0.33120792
XREPUL -0.84308972 -0.84308972 -0.84308972

同樣，似乎收斂的速度非常快。

有趣的是，通過這個算法，我們還可以得到估計量的方差

然后根據 λ函數計算 βλ的代碼

for(s in 1:20){
pi = exp(X%*%beta[,s])/(1+exp(X%*%beta[,s]))
diag(Delta)=(pi*(1-pi))
z = X%*%beta[,s] + solve(Delta)%*%(Y-pi)
B = solve(t(X)%*%Delta%*%X+2*lambda*diag(ncol(X))) %*% (t(X)%*%Delta%*%z)
beta = cbind(beta,B)}
Varz = solve(Delta)
Varb = solve(t(X)%*%Delta%*%X+2*lambda*diag(ncol(X))) %*% t(X)%*% Delta %*% Varz %*%
Delta %*% X %*% solve(t(X)%*%Delta%*%X+2*lambda*diag(ncol(X)))