邏輯回歸與最大熵模型

本文轉載自查看原文 2019-11-24 14:25 466 機器學習

邏輯回歸

sigmoid函數=\(\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^{x}}{1+e^{x}}\)

二項邏輯回歸模型

有如下條件概率分布，\(w\)內已經包含了偏置\(b\)：

\[P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)} \]

\[P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)} \]

對數幾率：

\[\text{logit}(p)=\frac{P(Y=1|x)}{1-P(Y=1|x)}=\frac{p}{1-p}=w\cdot x \]

參數估計

設：\(P(Y=1|x)=\pi (x), \qquad P(Y=0|x)=1-\pi (x)\)
似然函數為

\[\prod \limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} \]

對數似然函數為

\[\begin{aligned} \mathcal{L}(w) &=\sum \limits_{i=1}^N[y_i\log \pi(x_i)+(1-y_i)\log (1-\pi(x_i))] \\ & = \sum \limits_{i=1}^N[y_i(w_i \cdot x_i)-\log (1+\exp(w \cdot x_i))] \end{aligned}\]

對\(\mathcal{L}\)求極大值，得到\(w\)的估計值。對於無約束優化問題，一般使用梯度下降法或擬牛頓法（不一定存在解析解，或者難以求解）

多項邏輯回歸

\[P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum \limits_{k=1}^{K-1}\exp(w\cdot x)},\quad k=1,2,\cdots,K-1 \]

\[P(Y=K|x)=\frac{1}{1+\sum \limits_{k=1}^{K-1}\exp(w\cdot x)} \]

總結：每項的歸一化項都相同，不同的是分子。最后一項分子為1，其他都是對應的\(\exp(w_k \cdot x)\)

最大熵模型

最大熵原理表述為在滿足約束條件的模型集合中選取熵最大的模型

模型定義

對於給定數據集，可以確定聯合分布\(P(X,Y)\)的經驗分布和邊緣分布\(P(X)\)的經驗分布，分別為：

\[\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N} \]

\[\tilde{P}(X=x)=\frac{v(X=x)}{N} \]

其中\(v(\cdot)\)表示頻數

用特征函數\(f(x,y)\)描述輸入\(x\)和輸出\(y\)之間的某個事實(可以看成是特征提取，提取輸入輸出的共同特征)，其定義為：

\[f(x,y)=\begin{cases}1,\quad x與y\text{滿足某一事實}\\ 0, \quad \text{otherwise}\end{cases} \]

如果模型能夠獲取訓練數據中的信息，那么應該滿足：

\[\sum \limits_{x,y}\tilde{P}(x)P(y|x)f(x,y)=\sum \limits_{x,y}\tilde{P}(x,y)f(x,y) \]

或對於特征函數的期望應滿足如下條件：

\[E_P(f)=E_{\tilde{P}}(f) \]

其中\(P(Y|X)\)是要學習的條件概率

假設滿足所有約束條件的模型集合為

\[C \equiv \{P\in \mathcal{P}|E_P(f_i)=E_{\tilde{P}}(f_i), \quad i=1,2,\cdots,n\} \]

定義在條件概率分布\(P(Y|X)\)上的條件熵為

\[H(P)=-\sum \limits_{x,y}\tilde{P}(x)P(y|x)\ln P(y|x) \]

則模型集合\(\mathcal{C}\)中條件熵\(H(P)\)最大的模型稱為最大熵模型

最大熵模型的學習

可以形式化為約束最優化問題

\[\begin{aligned} \max \limits_{P\in C} \quad & H(P)= -\sum \limits_{x,y}\tilde{P}(x)P(y|x)\ln P(y|x) \\ s.t. \quad & E_P(f_i)=E_{\tilde{P}}(f_i), \quad i=1,2,\cdots,n \\ & \sum \limits_y P(y|x)=1 \end{aligned}\]

邏輯回歸與最大熵模型的關系

當\(y \in \{+1,-1\}\)，且特征函數為

\[f=\begin{cases}g(x), \quad & y=y_1 \\ 0, \quad &y=y_0 \end{cases} \]

時，最大熵模型變為邏輯回歸模型

邏輯回歸優缺點

優點：
- 便利的觀測樣本概率分數；
- 已有工具的高效實現；
- 對邏輯回歸而言，多重共線性並不是問題，它可以結合L2正則化來解決；
- 邏輯回歸廣泛的應用於工業問題上（這一點很重要）
缺點：
- 當特征空間很大時，邏輯回歸的性能不是很好；
- 不能很好地處理大量多類特征或變量；
- 對於非線性特征，需要進行轉換；
- 依賴於全部的數據（個人覺得這並不是一個很嚴重的缺點）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 邏輯回歸和最大熵模型第六章-邏輯回歸與最大熵模型李航-統計學習方法-筆記-6：邏輯斯諦回歸與最大熵模型最大熵模型邏輯斯蒂回歸3 -- 最大熵模型之改進的迭代尺度法(IIS) 最大熵模型最大熵模型推導最大熵模型介紹 [轉] 理解各種熵&&最大熵模型最大熵模型原理小結