【Perceptron Learning Algorithm】林軒田機器學習基石

本文轉載自查看原文 2015-06-12 15:31 2597 機器學習公開課筆記

直接跳過第一講。從第二講Perceptron開始，記錄這一講中幾個印象深的點：

1. 之前自己的直覺一直對這種圖理解的不好，老按照x、y去理解。

a) 這種圖的每個坐標代表的是features；features的值是有物理意義的。

b) 而圈圈和叉叉是為了標注不同的樣本（正樣本負樣本），即label；為了后續的很多簡便表示，這里正樣本取+1，負樣本取-1

2. Perceptron Learning策略的幾何意義：表示臨界線（面）的法向量旋轉方向

由於label設為了+1和-1，可以直接用w+yx來表示遇上錯分樣本時臨界線的旋轉策略，很巧妙和簡潔。

這里是有一個疑問的，如果每次根據一個點調整，能保證調整后這個點一定就對了么？

我想這個答案是否定的：當輪調整后，這個點不一定就對了。

比如y=+1的例子，如果W向量特別長，x特別短，而且W與x的夾角特別大，那么就可能出現W+yx之后還是不能保證W(t+1)x是正的（即夾角轉不過來）；

但是這並不影響最后總體的收斂趨勢（如果是Linear seperable的）

3. 為什么在Linear Seperable的條件下，Perceptron Learning Algorithm的算法策略是收斂的？

林的思路是這樣的：

a) 首先假設數據是linear seperable的，在這個條件下，我們認為存在一個理想的分界線法向量Wf

b) 如果我們要求的W與Wf越接近，則認為越好

c) 如何衡量W與Wf越接近？向量內積越大，則認為越接近（夾角越小）

基於上述思路可以得到

大意就是說，按照PLA的算法策略，可以保證每一輪Wf與W的內積總是越來越大的，這個就保證了算法朝着好的方向發展。

但是還有問題，每一輪W的長度也在變化啊，這樣單純比較Wf與W的內積大小就沒意義了。

因此，更進一步，有了如下的推導：

至於這里為什么用2范數，我理解主要為了表述方便一些。

這么一大段的意思就每輪算法策略迭代后，我們要求的W的長度的增長速度是有上限的。（當然，也不一定是每輪都增長的，如果展開式子的中間項是比較大的負的，還可能減小）

上面兩個PPT合在一起想說明一個直觀的問題：算法策略每輪朝着好的方向發展的，而且W的增速是有上限的。

有了這樣的一個直觀的理解，我們就可以猜測，在一定迭代次數內，算法策略是可以收斂的。即，證明如下式子：

證明過程課件並沒有給出，自己划一划也就出來了：

自己的字太難看，但是這樣比較快捷，湊合看了。

這個證明過程，條件放松的都蠻寬的，但是可以證明PLA的算法策略是收斂的。

==================================================

第二次再過這個題目：

（1）PLA算法的迭代式子看成是對超平面法向量W的旋轉

（2）證明PLA可以收斂的思路：

　　a. W的長度每輪增幅有限

　　b. W與Wf的內積越來越大（W越來越接近完全分類面）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【作業一】林軒田機器學習基石【作業二】林軒田機器學習基石【Deep Learning】林軒田機器學習技法 Coursera - 機器學習基石 - 林軒田 | 作業一 - 題目 & 答案 & 解析【Matrix Factorization】林軒田機器學習技法台大林軒田老師《機器學習基石》和《機器學習技法》筆記大綱【作業四】林軒田機器學習技法 + 機器學習公開新課學習個人體會機器學習---感知機（Machine Learning Perceptron）機器學習基石機器學習基石（Machine Learning Foundations）作業1 習題解答機器學習基石作業1