從線性回歸,logistic回歸,softmax回歸,最大熵的概率解釋來看,我們會發現線性回歸是基於高斯分布+最大似然估計的結果,logistic回歸是伯努利分布+對數最大似然估計的結果,softmax回歸是多項分布+對數最大似然估計的結果,最大熵是基於期望+對數似然估計的結果。前三者可以從廣義線性模型角度來看。
廣義線性模型
廣義線性模型建立在三個定義的基礎上,分別為:
定義線性預測算子
定義y的估計值
定義 y 的估值概率分布屬於某種指數分布族:
接下來詳細解釋各個定義
指數分布家族
指數分布家族是指可以表示為指數形式的概率分布,指數分布的形式如下:
其中:
- \(η\)被稱為自然參數(natural parameters)
- T(y)稱為充分統計量,通常$T(y) = y $
- \(a(η)\)稱為對數分割函數(log partition function);
- \(e^{-a(η)}\)本質上是一個歸一化常數,確保\(p(y;η)\)概率和為1。
當\(T(y)\)被固定時,\(a(η)\)、\(b(y)\)就定義了一個以\(η\)為參數的一個指數分布。我們變化\(η\)就得到這個分布的不同分布。
為什么要把$ y \(的條件分布定義為這么奇怪的指數分布族?這是因為,在這樣的定義下,我們可以證明: \)p(y|η)$ 的期望值滿足:
\(p(y|η)\)的方差滿足:
如此簡潔的期望和方差意味着:一旦待估計的\(y\)的概率分布寫成了某種確定的指數分布族的形式(也就是給定了具體的 \(a,b,T\)),那么我們可以直接套用公式 $h(x,θ)=E(y|x,θ)=\frac{d}{dη}a(η) $ 構建回歸模型。
實際上大多數的概率分布都屬於指數分布家族,比如
1)伯努利分布 0-1問題
2)二項分布,多項分布 多取值 多次試驗
3)泊松分布 計數過程
4)伽馬分布與指數分布
5)\(\beta\)分布
6)Dirichlet分布
7)高斯分布
現在我們將高斯分布和伯努利分布用指數分布家族的形式表示:
Bernoulli分布的指數分布族形式:
即:在如下參數下 廣義線性模型是 Bernoulli 分布
Gaussian 分布的指數分布族形式:
在線性回歸中,\(\sigma\)對於模型參數\(\theta\)的選擇沒有影響,為了推導方便我們將其設為1:
得到對應的參數:
用廣義線性模型進行建模
想用 廣義線性模型對一般問題進行建模首先需要明確幾個 假設:
1.\(y|x;\theta ∼ ExponentialFamily(η)\)的條件概率屬於指數分布族
2.給定x 廣義線性模型的目標是 求解 T(y)|x , 不過由於 很多情況下\(T(y)=y\)所以我們的目標變成了\(y|x\) , 也即 我們希望擬合函數為\(h(x)=E[y|x]\)
(NOTE: 這個條件在 線性回歸 和 邏輯回歸中都滿足, 例如 邏輯回歸中\(h_\theta(x)=p(y=1|x;\theta)\))
3.自然參數\(η\)與 \(x\)是線性關系 : \(η=\theta^T x\) (\(η\)為向量時,\(η_i=\theta_i^T x\) )
有了如上假設 就可以進行建模和求解了:
廣義線性模型 推導出 線性回歸:
step1: \(p(y|x;theta) ∼ N(\mu,\theta)\)
step2: 由假設2\(h(x)=E[y|x]\)得到:
廣義線性模型 推導出 邏輯回歸:
step1: \(p(y|x;theta) ∼ Bernoulli(\phi)\)
step2: 由假設2\(h(x)=E[y|x]\)得到:
