考慮一個多分類問題,即預測變量y可以取k個離散值中的任何一個.比如一個郵件分類系統將郵件分為私人郵件,工作郵件和垃圾郵件。由於y仍然是一個離散值,只是相對於二分類的邏輯回歸多了一些類別。下面將根據多項式分布建模。
考慮將樣本共有k類,每一類的概率分別為,由於
,所以通常我們只需要k-1個參數
即可
,
為了推導,引入表達式:
上面T(y)是k-1維列向量,其中y = 1, 2, ...k.
T(y)i 表示向量T(y)的第i個元素。
還要引入表達式 ,如果大括號里面為真,則真個表達式就為1,否則為0.例如:1{2=3} = 0和1{3=3} = 1.
則上面的k個向量就可以表示為
以為y只能屬於某一個類別,於是T(y)中只能有一個元素為1其他元素都為0,可以求出k-1個元素的期望:
定義:
其中i = 1,2,...k.
則有:
也就容易得出:
,由該式和上面使得等式:
一起可以得到:
這個函數就是softmax函數。
然后假設和
具有線性關系,即
於是從概率的角度出發:
其中
這個模型就是softmax回歸(softmax regression), 它是邏輯回歸的泛化。
這樣我們的輸出:
就是輸出了x屬於(1,2,...k-1)中每一類的概率,當然屬於第k類的概率就是:
下面開始擬合參數
同樣使用最大化參數θ的對數似然函數:
這里使用梯度下降和牛頓法均可。