機器學習-李航-統計學習方法學習筆記之感知機(1)


          感知機應該是機器學習里面最簡單的模型了。讀一遍文章也能理解作者想表達的意思。因為以前像梯度下降,多項式擬合,神經網絡都在Andrew Ng的公開課上看過了。但是真正關於書中的公式卻不怎么理解。一些簡單的作者也沒有推導。畢竟這是機器學習,不是微積分,或者線性代數,或者概率論。微積分,概率論,線性代數是 大學期間的基礎課程。很多人應該都學過。

         關於感知機的幾何模型。

          感知機有如下幾何解釋:線性方程:

             w•x+b=0

          對應於特征空間Rn中的一個超平面S,其中w是超平面的法向量,b是超平面的截距。

   

我們首先看一下法向量的定義 

如果一個非零 向量 n與平面a垂直,則稱向量 n為平面a的法向量。
垂直於平面的 直線所表示的向量為該平面的法向量。每一個平面存在無數個法向量。
因為我們知道超平面的幾何方程還可以這樣寫  :Ax+By+Cz=D;如下圖
上圖來自於網易公開課,可汗學院線性代數公開課, 點擊進入
其中法向量n=Ai+Bj+Cz ;也就是法向量可以如下表示(A,B,Z);
超平面幾何方程:Ax+By+Cz=D;
和該處超平面的方程相對比,w•x+b=0  也就是w=n=(A,B,Z) ,其中-b為超平面的截距,也就是平面方程中的D;
感知機模型中的X也就是特征向量,也就是平面中的一系列點,也就是我們超平面幾何方程中的(x,y,z);
到此我們就不能理解了。感知機幾何模型w•x+b=0  既是超平面幾何方程Ax+By+Cz=D;

      感知機學習策略

     既然了解了感知機的幾何模型,接下來我們就看一下感知機的學習策略。

    對於一個線性可分的 數據集    

     

        我們現在需要找到一個分離超平面,也就是確定w,b的參數,來將損失函數最小化,在這兒也就是求出所有的點到該幾何平面的總距離,並使該總距離最短。從而將特征向量完全區分開來。

        我們需要求任意一點到該超平面的距離,公式如下

我們首先來看|w•x0+b|的意義

我們先不管作者給出的公式。我們先看一下在線性代數里面是怎樣求一個點到平面的距離的。

具體的公式推導請到網易公開課,線性代數課程觀看,點擊此處

 

從線性幾何我們得出任意一點到平面的距離公式是

其中Ax+By+Cz-D,也就是我們上面給的線性幾何模型。相對於感知機也就是w•x+b

對於A2+B2+C2開平方也就是將對法向量w(A,B,C) 的一系列操作。作者在書中提到該值是法向量w的L2范數。我們先看一下范數的概念。

該定義來自線性代數

從上定義我們可以得知||w||即為對A2+B2+C2開平方。

至此我們就明了了作者書中公式的由來。

 關於感知機模型的學習策略請看機器學習-李航-統計學習方法學習筆記之感知機(2)


轉載請以超鏈接形式標明文章原始出處。
                  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM