機器學習-Logistic function（Sigmoid function）

本文轉載自查看原文 2017-06-04 20:40 1183

下面給出H函數

由這個函數生成的曲線稱為Sigmoid曲線

先不從數學上說為什么這個模型中二元分類上比線性模型好，單純從圖形上看就可以得到直觀的結論
首先Y值域在[0,1]，其次圖形中中間陡峭而兩邊平緩，符合二元分類的樣本點特性

確定了模型，下面要做的是fit最優的θ，仍然是采用最大似然法，即找出對訓練數據可能性最大的那個θ

前面對於線性回歸問題，符合高斯分布（連續回歸問題往往符合高斯分布），最終我們由最大似然推導出最小二乘回歸
但是對於二元分類，符合伯努利分布（the Bernoulli distribution, 又稱兩點分布，0-1分布），因為二元分類的輸出一定是0或1，典型的伯努利實驗
by the way，二項分布是n次獨立的伯努利實驗形成的概率分布，當n=1時，就是伯努利分布
同樣，如果離散輸出是多個值，就是符合多項分布

看看由最大似然可以推導出什么
首先給出伯努利分布

是否好理解，給定x;θ，y=1的概率等於h的值，看看圖中，當然是h的值越大越可能為1，越小越可能為0
那么這個式子可以合並寫成，比較tricky的寫法，Y為0或1，總有一項為1
那么θ的似然函數定義為，θ的可能性取決於模型對訓練集擬合的好壞

同樣為了數學計算方便，定義log likelihood，

很顯然，對於伯努利分布，這里無法推導出最小二乘
下面要做的是找到θ使得ℓ(θ)最大，由於這里是找最大值而非最小值，所以使用梯度上升（gradient ascent），道理是一樣的
首先計算梯度，計算過程參考原文

所以最終隨機梯度上升rule寫成，
這個梯度公式，奇跡般的和線性回歸中的梯度公式表面上看是一樣的，可以仔細比較一樣的
之所以說表面上，是因為其中的是不同的，這里是logitics函數。

Perceptron Learning Algorithm（感知機算法）

這里談感知機，好像有些離題，但是你看下感知機的函數

單純從直觀圖形的角度，似乎是邏輯函數的簡化形式
邏輯函數是連續的在[0,1]區間上，而感知機直接非0則1，參考下圖紅線

同樣使用梯度下降的感知機算法也是和上面相同的形式

同樣不同的僅僅是h(x)
1960s，感知機被看作是大腦工作中獨立神經元的粗糙的模型，由於簡單，會用作后面介紹的學習算法的起點
雖然直觀看上去感知機和之前看到的logistic回歸或最小二乘回歸很像，但是其實是非常不一樣的算法
因為，對於感知機，很難賦予一種有意義的概率解釋（probabilistic interpretations），或使用最大似然估計算法來推導感知機算法
而對於最小二乘或logistic都可以給出像高斯分布或伯努利分布的概率解釋，並可以使用最大似然進行推導。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 logistic function 和 sigmoid function 機器學習筆記（1）：模型和 cost function Sigmoid函數的替代：overflow encountered in exp in computing the logistic function 機器學習-sigmoid函數機器學習（六）— logistic回歸機器學習-Logistic回歸【機器學習】代價函數（cost function）機器學習總結：幾種常見的損失函數（Loss function）機器學習之代價函數（cost function）【機器學習】激活函數（Activation Function）