【Perceptron Learning Algorithm】林軒田機器學習基石


直接跳過第一講。從第二講Perceptron開始,記錄這一講中幾個印象深的點:

 

1. 之前自己的直覺一直對這種圖理解的不好,老按照x、y去理解。

a) 這種圖的每個坐標代表的是features;features的值是有物理意義的。

b) 而圈圈和叉叉是為了標注不同的樣本(正樣本 負樣本),即label;為了后續的很多簡便表示,這里正樣本取+1,負樣本取-1

 

2. Perceptron Learning策略的幾何意義:表示臨界線(面)的法向量旋轉方向

由於label設為了+1和-1,可以直接用w+yx來表示遇上錯分樣本時臨界線的旋轉策略,很巧妙和簡潔。

這里是有一個疑問的,如果每次根據一個點調整,能保證調整后這個點一定就對了么?

我想這個答案是否定的:當輪調整后,這個點不一定就對了。

比如y=+1的例子,如果W向量特別長,x特別短,而且W與x的夾角特別大,那么就可能出現W+yx之后還是不能保證W(t+1)x是正的(即夾角轉不過來);

但是這並不影響最后總體的收斂趨勢(如果是Linear seperable的)

 

3. 為什么在Linear Seperable的條件下,Perceptron Learning Algorithm的算法策略是收斂的?

林的思路是這樣的:

a) 首先假設數據是linear seperable的,在這個條件下,我們認為存在一個理想的分界線法向量Wf

b) 如果我們要求的W與Wf越接近,則認為越好

c) 如何衡量W與Wf越接近?向量內積越大,則認為越接近(夾角越小)

基於上述思路可以得到

大意就是說,按照PLA的算法策略,可以保證每一輪Wf與W的內積總是越來越大的,這個就保證了算法朝着好的方向發展。

但是還有問題,每一輪W的長度也在變化啊,這樣單純比較Wf與W的內積大小就沒意義了。

因此,更進一步,有了如下的推導:

至於這里為什么用2范數,我理解主要為了表述方便一些。

這么一大段的意思就每輪算法策略迭代后,我們要求的W的長度的增長速度是有上限的。(當然,也不一定是每輪都增長的,如果展開式子的中間項是比較大的負的,還可能減小)

上面兩個PPT合在一起想說明一個直觀的問題:算法策略每輪朝着好的方向發展的,而且W的增速是有上限的。

有了這樣的一個直觀的理解,我們就可以猜測,在一定迭代次數內,算法策略是可以收斂的。即,證明如下式子:

證明過程課件並沒有給出,自己划一划也就出來了:

自己的字太難看,但是這樣比較快捷,湊合看了。

這個證明過程,條件放松的都蠻寬的,但是可以證明PLA的算法策略是收斂的。

==================================================

第二次再過這個題目:

(1)PLA算法的迭代式子看成是對超平面法向量W的旋轉

(2)證明PLA可以收斂的思路:

  a. W的長度每輪增幅有限

  b. W與Wf的內積越來越大(W越來越接近完全分類面)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM