本博客已經遷往http://www.kemaswill.com/, 博客園這邊也會繼續更新, 歡迎關注~
Linear Regression預測的目標\(Y\)是連續值, Logistic Regression預測的目標是二元變量, 泊松回歸預測的是一個整數, 亦即一個計數(Count).
1. 泊松分布
如果一個離散隨機變量\(Y\)的概率分布函數(probability mass function)為
$$Pr(Y=k)=\frac{\lambda^ke^{-\lambda}}{k!}$$
其中\(\lambda>0, k=0,1,2,...\), 則稱\(Y\)服從泊松分布, 示意圖如下圖所示
泊松分布有以下性質:
- \(E(Y)=\lambda\)
- \(Var(Y)=\lambda\)
- 如果\(Y_1 \sim Poisson(\lambda_1), Y_2 \sim Poisson(\lambda_2)\), 則\(Y=Y_1+Y_2 \sim Poisson(\lambda=\lambda_1+\lambda_2)\)
2. 泊松回歸
泊松回歸預測的目標\(Y\)是整數值, 且服從參數為\(\lambda\)的泊松分布:
$$P(Y=y|\lambda)=\frac{\lambda^ye^{-\lambda}}{y!}$$
泊松分布是廣義線性模型(Generalized Linear Model)的一種, 可以通過以下過程來建模:
- 假設\(Y_i~Poisson(\lambda_1)\)
- 令\(\phi_i=log(\lambda_i)\)或者\(\phi_i=\lambda_i\) , 前者稱作identity link function, 后者稱作log link function.
- \(\phi_i=\beta_0+\beta_1 X_{i1}+\beta_2 X_{i2}+...\)
使用log link function的好處是不會得到\(\lambda\)的負數估計值(因為泊松分布的\(\lambda\)是正的), 而identity link function則可能會得到負數估計值, 但在數據量比較大的情況下, 使用identity link function會減少計算量(除了不需要求對數之外, 在增量計算時, 也會有很大的好處, 細節可以參考[2])
2.1 參數估計
可以使用最大似然估計(MLE)來求得泊松分布的參數:
$$w=arg \hspace{2 pt} max \hspace{2 pt} l=log(\prod_i (p(y_i)))$$
$$=arg \hspace{2 pt} max \hspace{2 pt} l=\sum_i (y_ilog(w^Tx_i)-w^Tx_i-log(y_i!))$$
可以得到對數似然關於\(w\)的倒數為
$$\frac{\partial l}{\partial w_j}=\sum_i(\frac{y_i}{\lambda_i}x_{ij}-x_{ij})$$
因為對數似然函數是凸函數[3], 所以可以使用梯度下降或者Newton-Raphson[4]方法來求得最優解.
2.2 用途
泊松分布可以用在Behavior Targeting中, 用泊松分布分別估計將來用戶在某個類別上的瀏覽和點擊數, 然后就可以得到這個用戶在這個類別上的CTR:
$$\widehat{CTR_{ik}}=\frac{\lambda_{ik}^{click}+\alpha}{\lambda_{ik}^{view}+\beta}$$
其中\(\alpha\)和\(\beta\)是用來做拉普拉斯平滑的, 可以是一個全局的值, 也可以每個類別都設置一對. \(\alpha / \beta\)是一個沒有任何歷史記錄的新用戶的默認CTR值.
參考文獻:
[1]. Carl James Schwarz. Poisson Regression.
[2]. Ye Chen, Dmitry Pavlov, John F.Canny. Large-Scale Behavioral Targeting.
[3]. 凸問題淺析.
[4]. 優化算法-BFGS.

