直接跳過第一講。從第二講Perceptron開始,記錄這一講中幾個印象深的點:
1. 之前自己的直覺一直對這種圖理解的不好,老按照x、y去理解。
a) 這種圖的每個坐標代表的是features;features的值是有物理意義的。
b) 而圈圈和叉叉是為了標注不同的樣本(正樣本 負樣本),即label;為了后續的很多簡便表示,這里正樣本取+1,負樣本取-1
2. Perceptron Learning策略的幾何意義:表示臨界線(面)的法向量旋轉方向
由於label設為了+1和-1,可以直接用w+yx來表示遇上錯分樣本時臨界線的旋轉策略,很巧妙和簡潔。
這里是有一個疑問的,如果每次根據一個點調整,能保證調整后這個點一定就對了么?
我想這個答案是否定的:當輪調整后,這個點不一定就對了。
比如y=+1的例子,如果W向量特別長,x特別短,而且W與x的夾角特別大,那么就可能出現W+yx之后還是不能保證W(t+1)x是正的(即夾角轉不過來);
但是這並不影響最后總體的收斂趨勢(如果是Linear seperable的)
3. 為什么在Linear Seperable的條件下,Perceptron Learning Algorithm的算法策略是收斂的?
林的思路是這樣的:
a) 首先假設數據是linear seperable的,在這個條件下,我們認為存在一個理想的分界線法向量Wf
b) 如果我們要求的W與Wf越接近,則認為越好
c) 如何衡量W與Wf越接近?向量內積越大,則認為越接近(夾角越小)
基於上述思路可以得到
大意就是說,按照PLA的算法策略,可以保證每一輪Wf與W的內積總是越來越大的,這個就保證了算法朝着好的方向發展。
但是還有問題,每一輪W的長度也在變化啊,這樣單純比較Wf與W的內積大小就沒意義了。
因此,更進一步,有了如下的推導:
至於這里為什么用2范數,我理解主要為了表述方便一些。
這么一大段的意思就每輪算法策略迭代后,我們要求的W的長度的增長速度是有上限的。(當然,也不一定是每輪都增長的,如果展開式子的中間項是比較大的負的,還可能減小)
上面兩個PPT合在一起想說明一個直觀的問題:算法策略每輪朝着好的方向發展的,而且W的增速是有上限的。
有了這樣的一個直觀的理解,我們就可以猜測,在一定迭代次數內,算法策略是可以收斂的。即,證明如下式子:
證明過程課件並沒有給出,自己划一划也就出來了:
自己的字太難看,但是這樣比較快捷,湊合看了。
這個證明過程,條件放松的都蠻寬的,但是可以證明PLA的算法策略是收斂的。
==================================================
第二次再過這個題目:
(1)PLA算法的迭代式子看成是對超平面法向量W的旋轉
(2)證明PLA可以收斂的思路:
a. W的長度每輪增幅有限
b. W與Wf的內積越來越大(W越來越接近完全分類面)