1、主要內容
邏輯回歸的推導,分別推導出y={0,1}和y = {-1, +1},之前關於林軒田老師和李航老師關於邏輯回歸的推導弄混了,林軒田老師的推導是建立在后面的—1, +1的分類,李航老師的是關於0, 1的推導。
2、關於邏輯斯蒂模型
邏輯斯蒂模型從邏輯斯蒂分布得到,這一部分見李航老師的《統計學習方法》。
3、公式推導
兩種推導都是采用對數似然最大方式進行模型的參數估計,不同之處就在於模型最后的映射結果不同,造成中間步驟關於0,1和 -1, 1的不同的處理,這個也是重點以后遇到相關的問題也可以采用類似的方式進行處理。同時將求最大似然函數取負號然后將求最大變成求最小值。
當訓練數據為 xi 對 y = {0, 1}的處理:
其中為邏輯斯蒂模型:
因此在整個訓練數據上的似然函數就是:
對數似然函數為:
對其進一步的整理:
最后可以得到邏輯回顧的損失函數,同時在此處是求最大的似然估計,也就是求上面式子的最大值,添加符號將求最大變成最小值,然后對其求梯度:
對 y = {-1, +1}的處理:
觀察邏輯斯蒂回歸模型可以直到:
因此對於xi來說:
因此整個訓練模型的似然函數為
對數似然函數為:
最后求似然函數的負數梯度可知:
3、關於多分類問題
一種可取的辦法就是“one-vs-rest”,對於有K個分類情況下,生成K個模型分別進行判斷,具體來說首先把數據根據是否y=k 和 y!= k進行分開,然后依次進行訓練,最后可以得出K個模型,在測試數據時,每個數據都去這K個模型中跑一遍,選擇概率最大的分類作為結果。這種判別方式不能直接給出 P(y=k|x),為此還可以使用以下的公式進行計算最后得出概率值,但是這種方式的參數估計方法也是使用似然估計,但是還不知具體怎么做?