機器學習-Logistic function(Sigmoid function)


下面給出H函數 

由這個函數生成的曲線稱為Sigmoid曲線

先不從數學上說為什么這個模型中二元分類上比線性模型好,單純從圖形上看就可以得到直觀的結論 
首先Y值域在[0,1],其次圖形中中間陡峭而兩邊平緩,符合二元分類的樣本點特性

確定了模型,下面要做的是fit最優的θ,仍然是采用最大似然法,即找出對訓練數據可能性最大的那個θ

前面對於線性回歸問題,符合高斯分布(連續回歸問題往往符合高斯分布),最終我們由最大似然推導出最小二乘回歸 
但是對於二元分類,符合伯努利分布(the Bernoulli distribution, 又稱兩點分布,0-1分布),因為二元分類的輸出一定是0或1,典型的伯努利實驗 
by the way,二項分布是n次獨立的伯努利實驗形成的概率分布,當n=1時,就是伯努利分布 
同樣,如果離散輸出是多個值,就是符合多項分布 

看看由最大似然可以推導出什么 
首先給出伯努利分布 

是否好理解,給定x;θ,y=1的概率等於h的值,看看圖中,當然是h的值越大越可能為1,越小越可能為0 
那么這個式子可以合並寫成,比較tricky的寫法,Y為0或1,總有一項為1 
那么θ的似然函數定義為,θ的可能性取決於模型對訓練集擬合的好壞 

同樣為了數學計算方便,定義log likelihood, 

很顯然,對於伯努利分布,這里無法推導出最小二乘
下面要做的是找到θ使得ℓ(θ)最大,由於這里是找最大值而非最小值,所以使用梯度上升(gradient ascent),道理是一樣的 
首先計算梯度,計算過程參考原文 

所以最終隨機梯度上升rule寫成, 
這個梯度公式,奇跡般的和線性回歸中的梯度公式表面上看是一樣的,可以仔細比較一樣的 
之所以說表面上,是因為其中的是不同的,這里是logitics函數。

Perceptron Learning Algorithm(感知機算法)

這里談感知機,好像有些離題,但是你看下感知機的函數 

單純從直觀圖形的角度,似乎是邏輯函數的簡化形式 
邏輯函數是連續的在[0,1]區間上,而感知機直接非0則1,參考下圖紅線 

同樣使用梯度下降的感知機算法也是和上面相同的形式 

同樣不同的僅僅是h(x) 
1960s,感知機被看作是大腦工作中獨立神經元的粗糙的模型,由於簡單,會用作后面介紹的學習算法的起點 
雖然直觀看上去感知機和之前看到的logistic回歸或最小二乘回歸很像,但是其實是非常不一樣的算法 
因為,對於感知機,很難賦予一種有意義的概率解釋(probabilistic interpretations),或使用最大似然估計算法來推導感知機算法 
而對於最小二乘或logistic都可以給出像高斯分布或伯努利分布的概率解釋,並可以使用最大似然進行推導



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM