[Machine Learning] logistic函數和softmax函數

本文轉載自查看原文 2016-07-17 15:28 40326 Algorithm/ Machine Learning

　　簡單總結一下機器學習最常見的兩個函數，一個是logistic函數，另一個是softmax函數，若有不足之處，希望大家可以幫忙指正。本文首先分別介紹logistic函數和softmax函數的定義和應用，然后針對兩者的聯系和區別進行了總結。

1. logistic函數

1.1 logistic函數定義

　　引用wiki百科的定義：

　　A logistic function or logistic curve is a common "S" shape (sigmoid curve).

　　其實邏輯斯諦函數也就是經常說的sigmoid函數，它的幾何形狀也就是一條sigmoid曲線。

　　logistic函數的公式形式如下：

$f(x) = \frac{L}{1+e^{-k(x-x_{0})}}$

　　其中，$x_{0}$表示了函數曲線的中心（sigmoid midpoint），$k$是曲線的坡度。

　　logistic的幾何形狀如下所示：

1.2 logistic函數的應用

　　logistic函數本身在眾多領域中都有很多應用，我們只談統計學和機器學習領域。

　　logistic函數在統計學和機器學習領域應用最為廣泛或者最為人熟知的肯定是邏輯斯諦回歸模型了。邏輯斯諦回歸（Logistic Regression，簡稱LR）作為一種對數線性模型（log-linear model）被廣泛地應用於分類和回歸場景中。此外，logistic函數也是神經網絡最為常用的激活函數，即sigmoid函數。

2. softmax函數

2.1 softmax函數的定義

　　同樣，我們貼一下wiki百科對softmax函數的定義：

　　softmax is a generalization of logistic function that "squashes"(maps) a $K$-dimensional vector $z$ of arbitrary real values to a $K$-dimensional vector $\sigma(z)$ of real values in the range (0, 1) that add up to 1.

　　這句話既表明了softmax函數與logistic函數的關系，也同時闡述了softmax函數的本質就是將一個$K$維的任意實數向量壓縮（映射）成另一個$K$維的實數向量，其中向量中的每個元素取值都介於（0，1）之間。

　　softmax函數形式如下：

$\sigma(z)_{j}=\frac{e^{z_{j}}}{\sum^{K}_{k=1}e^{z_{k}}}$

　　其中$j = 1,2, ... , K$。

2.2 sotfmax函數的應用

　　softmax函數經常用在神經網絡的最后一層，作為輸出層，進行多分類。此外，softmax在增強學習領域內，softmax經常被用作將某個值轉化為激活概率，這類情況下，softmax的公式如下：

$P_{t}(a)=\frac{e^{\frac{q_{t}(a)}{T}}}{\sum^{n}_{i=1}e^{\frac{q_{t}(i)}{T}}}$

　　其中，$T$被稱為是溫度參數（temperature parameter）。當T很大時，即趨於正無窮時，所有的激活值對應的激活概率趨近於相同（激活概率差異性較小）；而當T很低時，即趨於0時，不同的激活值對應的激活概率差異也就越大。這個結論很重要，Hinton在2015年的一篇paper中重點闡釋了如何根據溫度參數來soften神經網絡的輸出，從而提出了distillation的思想和方法。