感知機應該是機器學習里面最簡單的模型了。讀一遍文章也能理解作者想表達的意思。因為以前像梯度下降,多項式擬合,神經網絡都在Andrew Ng的公開課上看過了。但是真正關於書中的公式卻不怎么理解。一些簡單的作者也沒有推導。畢竟這是機器學習,不是微積分,或者線性代數,或者概率論。微積分,概率論,線性代數是 大學期間的基礎課程。很多人應該都學過。
關於感知機的幾何模型。
感知機有如下幾何解釋:線性方程:
w•x+b=0
對應於特征空間Rn中的一個超平面S,其中w是超平面的法向量,b是超平面的截距。
我們首先看一下法向量的定義

感知機學習策略
既然了解了感知機的幾何模型,接下來我們就看一下感知機的學習策略。
對於一個線性可分的 數據集
我們現在需要找到一個分離超平面,也就是確定w,b的參數,來將損失函數最小化,在這兒也就是求出所有的點到該幾何平面的總距離,並使該總距離最短。從而將特征向量完全區分開來。
我們需要求任意一點到該超平面的距離,公式如下
我們首先來看|w•x0+b|的意義
我們先不管作者給出的公式。我們先看一下在線性代數里面是怎樣求一個點到平面的距離的。
具體的公式推導請到網易公開課,線性代數課程觀看,點擊此處
從線性幾何我們得出任意一點到平面的距離公式是
其中Ax+By+Cz-D,也就是我們上面給的線性幾何模型。相對於感知機也就是w•x+b
對於A2+B2+C2開平方也就是將對法向量w(A,B,C) 的一系列操作。作者在書中提到該值是法向量w的L2范數。我們先看一下范數的概念。
該定義來自線性代數
從上定義我們可以得知||w||即為對A2+B2+C2開平方。
至此我們就明了了作者書中公式的由來。
關於感知機模型的學習策略請看機器學習-李航-統計學習方法學習筆記之感知機(2)