解釋1:
他的假設服從指數分布族
解釋2:
最大熵模型,即softmax分類是最大熵模型的結果。
關於最大熵模型,網上很多介紹:
在已知部分知識的前提下,關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷,其原則是承認已知事物(知識),且對未知事物不做任何假設,沒有任何偏見。
所以,最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型。
參考網址:
https://blog.csdn.net/xg123321123/article/details/54286514
對於輸入x,判斷類別y
如果使他滿足最大熵模型,則條件概率滿足公式:

其中wi(i=1,2,...m)wi(i=1,2,...m)為拉格朗日乘子。如果大家也學習過支持向量機,就會發現這里用到的凸優化理論是一樣的,接着用到了拉格朗日對偶也一樣。
最大熵模型這里引入了一個特征函數的概念:
可以定義為:

為什么需要特征函數?比較容易理解的是,特征函數其實是一個用戶接口,我們可以通過定制特征函數來控制模型的訓練。
注意,f(x,y)必須是實數函數,而最大熵模型一般要求這個函數是一個二值函數。也就是說通過這個特征函數把x和y之間千絲萬縷的關系轉化成了一個實數值。
至此,我們可以看到softmax的表達式和最大熵模型的最優求解的表達式形式上是相似的,如果我們用θx表達最大熵中Wf(x,y)就得到了softmax的表達式。
