1. softmax回歸模型
softmax回歸模型是logistic回歸模型在多分類問題上的擴展(logistic回歸解決的是二分類問題)。
對於訓練集,有
。
對於給定的測試輸入,我們相擁假設函數針對每一個類別j估算出概率值
。也就是說,我們估計
得每一種分類結果出現的概率。因此我們的假設函數將要輸入一個
維的向量來表示這
個估計得概率值。假設函數
形式如下:
其中是模型的參數。
這一項對概率分布進行歸一化,舍得所有概率之和為1.
softmax回歸的代價函數:
上述公式是logistic回歸代價函數的推廣。logistic回歸代價函數可以改為:
可以看到,softmax代價函數與logistic代價函數在形式上非常類似,只是在softmax損失函數中對類標記的個可能值進行了累加。注意在softmax回歸中將
分類為
的概率為:
-
有了上面的偏導數公式以后,我們就可以將它代入到梯度下降法等算法中,來最小化
。 例如,在梯度下降法的標准實現中,每一次迭代需要進行如下更新:
2. 權重衰減
在實際應用中,為了使算法實現更簡單清楚,往往保留所有參數 ,而不任意地將某一參數設置為 0。但此時我們需要對代價函數做一個改動:加入權重衰減。權重衰減可以解決 softmax 回歸的參數冗余所帶來的數值問題。
我們通過添加一個權重衰減項 來修改代價函數,這個衰減項會懲罰過大的參數值,現在我們的代價函數變為:
有了這個權重衰減項以后 (),代價函數就變成了嚴格的凸函數,這樣就可以保證得到唯一的解了。 此時的 Hessian矩陣變為可逆矩陣,並且因為
是凸函數,梯度 下降法和 L-BFGS 等算法可以保證收斂到全局最優解。
為了使用優化算法,我們需要求得這個新函數 的導數,如下:
通過最小化 ,我們就能實現一個可用的 softmax 回歸模型。
3. 模型選擇
如果你在開發一個音樂分類的應用,需要對k種類型的音樂進行識別,那么是選擇使用 softmax 分類器呢,還是使用 logistic 回歸算法建立 k 個獨立的二元分類器呢?
這一選擇取決於你的類別之間是否互斥,例如,如果你有四個類別的音樂,分別為:古典音樂、鄉村音樂、搖滾樂和爵士樂,那么你可以假設每個訓練樣本只會被打上一個標簽(即:一首歌只能屬於這四種音樂類型的其中一種),此時你應該使用類別數 k = 4 的softmax回歸。
如果你的四個類別如下:人聲音樂、舞曲、影視原聲、流行歌曲,那么這些類別之間並不是互斥的。例如:一首歌曲可以來源於影視原聲,同時也包含人聲 。這種情況下,使用4個二分類的 logistic 回歸分類器更為合適。這樣,對於每個新的音樂作品 ,我們的算法可以分別判斷它是否屬於各個類別。
現在我們來看一個計算視覺領域的例子,你的任務是將圖像分到三個不同類別中。(i) 假設這三個類別分別是:室內場景、戶外城區場景、戶外荒野場景。你會使用sofmax回歸還是 3個logistic 回歸分類器呢? (ii) 現在假設這三個類別分別是室內場景、黑白圖片、包含人物的圖片,你又會選擇 softmax 回歸還是多個 logistic 回歸分類器呢?
在第一個例子中,三個類別是互斥的,因此更適於選擇softmax回歸分類器 。而在第二個例子中,建立三個獨立的 logistic回歸分類器更加合適。
整理自學習資料:Softmax回歸