感知機原理及實現

本文轉載自查看原文 2020-07-11 12:17 813 機器學習

感知機的原理

　　感知機是二分類的線性模型，其輸入是實例的特征向量，輸出的是事例的類別，分別是+1和-1，屬於判別模型。

假設訓練數據集是線性可分的，感知機學習的目標是求得一個能夠將訓練數據集正實例點和負實例點完全正確分開的分離超平面。如果是非線性可分的數據，則最后無法獲得超平面。感知機由Rosenblatt於1957年提出的，是神經網絡和支持向量機的基礎。

1：感知機模型

定義.感知機：假設輸入空間 $\mathcal{X} \subseteq R^{n}$ ，輸出空間 $\mathcal{Y} = \left\{+1, -1 \right\}$ 。輸入 $x \in \mathcal{X}$ 表示實例的特征向量，對應於輸入空間的點；輸出 $y \in \mathcal{Y}$ 表示實例的類別。由輸入空間到輸出空間的函數

$\begin{align*} \\& f \left( x \right) = sign \left( w \cdot x + b \right) \end{align*} \\$

稱為感知機。其中， $w$ 和 $b$ 為感知機模型參數， $w \in R^{n}$ 叫做權值或權值向量， $b \in R$ 叫偏置， $w \cdot x$ 表示 $w$ 和 $b$ 的內積。 $sign$ 是符號函數，即

$\begin{align*} sign \left( x \right) = \left\{ \begin{aligned} \ & +1, x \geq 0 \\ & -1, x<0 \end{aligned} \right.\end{align*} \\$

感知機是一種線性分類模型，屬於判別模型。感知機模型的假設空間是定義在特征空間中的所有線性分類模型或線性分類器，即函數集合 $\left\{ f | f \left( x \right) = w \cdot x + b \right\}$ 。

線性方程

$\begin{align*} \\& w \cdot x + b ＝ 0 \end{align*} \\$

對應於特征空間 $R^{n}$ 中的一個超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。超平面 $S$ 將特征空間划分為兩部分，位於其中的點被分為正、負兩類，超平面 $S$ 稱為分離超平面。

2: 感知機學習策略

2.1 數據集的線性可分

給定數據集

$\begin{align*} \\& T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{align*} \\$

其中， $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ，如果存在某個超平面 $S$

$\begin{align*} \\& w \cdot x + b ＝ 0 \end{align*} \\$

能夠將數據集的正實例和負實例完全正確地划分到超平面的兩側，即對所有 $y_{i}=+1$ 的實例 $x_{i}$ ，有 $w \cdot x_{i} + b > 0$ ，對所有 $y_{i}=-1$ 的實例 $x_{i}$ ，有 $w \cdot x_{i} + b < 0$ ，則稱數據集 $T$ 為線性可分數據集 linearly separable data set ；否則，稱數據集 $T$ 線性不可分。

2.2 感知機學習策略

輸入空間 $R^{n}$ 中的任一點 $x_{0}$ 到超平面 $S$ 的距離：

$\begin{align*} \\& \dfrac{1}{\| w \|} \left| w \cdot x_{0} + b \right| \end{align*} \\$

其中 $\| w \|$ 是 $w$ 的 $L_{2}$ 范數。

對於誤分類數據 $\left( x_{i}, y_{i} \right)$ ，當 $w \cdot x + b > 0$ 時， $y_{i}=-1$ ，當 $w \cdot x + b < 0$ 時， $y_{i}=+1$ ，有

$\begin{align*} \\& -y_{i} \left( w \cdot x_{i} + b \right) > 0 \end{align*} \\$

誤分類點 $x_{i}$ 到分離超平面的距離:

$\begin{align*} \\& -\dfrac{1}{\| w \|} y_{i}\left( w \cdot x_{i} + b \right) \end{align*}\\$
假設超平面 $S$ 的誤分類點集合為 $M$ ，則所有誤分類點到超平面 $S$ 的總距離：
$\begin{align*} \\& -\dfrac{1}{\| w \|} \sum_{x_{i} \in M} y_{i} \left( w \cdot x_{i} + b \right) \end{align*}\\$

給定訓練數據集

$\begin{align*} \\& L \left( w, b \right) = -\sum_{x_{i} \in M} y_{i} \left( w \cdot x_{i} + b \right) \end{align*} \\$
其中， $M$ 為誤分類點的集合。

注：對於這里損失函數少了 $\dfrac{1}{\| w \|}$ 可以先這么理解：我們目的是要找個超平面 $w \cdot x + b ＝ 0$ ，可以增加一個特征： $x_0=1$ ，因此超平面可以簡化為 $\sum_{i=0}^nw_ix_i=0$ ，用向量表示為 $w \cdot x ＝ 0$ ，則所有誤分類點到超平面 $S$ 的總距離： $-\dfrac{1}{\| w \|} \sum_{x_{i} \in M} y_{i} w \cdot x_{i}$ 。這樣可以發現，分子和分母都含有 $w$ ,當分子的 $w$ 擴大 $N$ 倍時，分母的 $L2$ 范數也會擴大 $N$ 倍。也就是說，分子和分母有固定的倍數關系。那么我們可以固定分子或者分母為1，然后求另一個即分子自己或者分母的倒數的最小化作為損失函數，這樣可以簡化我們的損失函數。在感知機模型中，我們采用的是保留分子，即最終感知機模型的損失函數簡化為： $L \left( w, b \right) = -\sum_{x_{i} \in M} y_{i}w \cdot x_{i}$

3：感知機學習算法

3.1 感知機學習算法的原始形式

給定訓練數據集

$\begin{align*} \\& T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{align*} \\$
其中， $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ 。求參數 $w$ 和 $b$ ，使其為以下損失函數極小化問題的解

$\begin{align*} \\& \min_{w,b} L \left( w, b \right) = -\sum_{x_{i} \in M} y_{i} \left( w \cdot x_{i} + b \right) \end{align*} \\$
其中， $M$ 為誤分類點的集合。

感知機學習算法是誤分類驅動的，采用隨機梯度下降法 stochastic gradient descent。極小化過程中不是一次使用$M$中所有誤分類點的梯度下降，而是一次隨機選取一個誤分類點使其梯度下降。

假設誤分類點集合 $M$ 是固定的，則損失函數 $L \left( w, b \right)$ 的梯度

$\begin{align*} \\& \nabla _{w} L \left( w, b \right) = -\sum_{x_{i} \in M} y_{i} x_{i} \\ & \nabla _{b} L \left( w, b \right) = -\sum_{x_{i} \in M} y_{i} \end{align*} \\$
隨機選取一個誤分類點 $\left( x_{i}, y_{i} \right)$ ，對 $w, b$ 進行更新：

$\begin{align*} \\& w \leftarrow w + \eta y_{i} x_{i} \\ & b \leftarrow b + \eta y_{i} \end{align*} \\$
其中， $\eta \left( 0 < \eta \leq 1 \right)$ 是步長，稱為學習率。

感知機算法（原始形式）：
輸入：訓練數據集 $T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ；學習率 $\eta \left( 0 < \eta \leq 1 \right)$ 。
輸出： $w,b$ ；感知機模型 $f \left( x \right) = sign \left( w \cdot x + b \right)$
1. 選取初值 $w_{0},b_{0}$
2. 在訓練集中選取數據 $\left( x_{i}, y_{i} \right)$
3. 如果 $y_{i} \left( w \cdot x_{i} + b \right) \leq 0$
$\begin{align*} \\& w \leftarrow w + \eta y_{i} x_{i} \\ & b \leftarrow b + \eta y_{i} \end{align*} \\$
4. 轉至2，直至訓練集中沒有誤分類點。

直觀解釋：當一個實例點被誤分類，即位於分離超平面的錯誤一側，則調整 $w,b$ 的值，使分離超平面向該誤分類點的一側移動，以減少該誤分類點與超平面的距離，直至超平面越過該分類點使其被分類正確。

例1

對於訓練數據集，其中正例點是x1=(3,3)T,x2=(4,3)T，負例點為x3=(1,1)T，用感知機學習算法的原始形式求感知機模型f(x)=w·x+b。這里w=(w⁽¹⁾,w⁽²⁾)^T，x=(x⁽¹⁾,x⁽²⁾)^T

解：構建最優化問題：

按照算法求解w， b。η=1

(1)取初值w₀=0, b₀=0

(2)對於（3，3）:-(0+0)+0=0未被正確分類。更新w,b

w1=w₀+1*y₁·x₁ = (0,0)T+1(3,3)T=(3,3)T

b₁=b₀+y₁=1

得到線性模型w₁x+b₁ = 3x⁽¹⁾+3x⁽²⁾+1

(3)返回（2）繼續尋找y_i(w·x_i+b)≤0的點，更新w,b。直到對於所有的點y_i(w·x_i+b)>0，沒有誤分類點，損失函數達到最小。

分離超平面為x⁽¹⁾+x⁽²⁾-3=0

感知機模型為 f(x)=sign(x⁽¹⁾+x⁽²⁾-3)

在迭代過程中，出現w·x_i+b=-2，此時，取任意一個點，都會是其小於0，不同的取值順序會導致最終的結果不同，因此解並不是唯一的。為了得到唯一的超平面，需要對分離超平面增加約束條件，這就是支持向量機的想法。

__author__ = 'Administrator'
#! /usr/bin/python <br> # -*- coding:utf8 -*-
import numpy as np
class Perceptron(object):
    """
    Perceptron classifier.
    Parameters(參數)
    ------------
    eta : float
    Learning rate (between 0.0 and 1.0) 學習效率
    n_iter : int
    Passes over the training dataset(數據集).
    Attributes（屬性）
    -----------
    w_ : 1d-array
    Weights after fitting.
    errors_ : list
    Number of misclassifications in every epoch（時間起點）.
    """

    def __init__(self, eta=0.01, n_iter=10):
        self.eta = eta
        self.n_iter = n_iter
    def fit(self, X, y):
        '''
    Fit training data.
    Parameters
    ----------
    X : {array-like}, shape = [n_samples, n_features] X的形式是列矩陣
    Training vectors, where n_samples is the number of samples
    and n_features is the number of features.
    y : array-like, shape = [n_samples]
    Target values.
    Returns
    -------
    self : object
'''
        self.w_ = np.zeros(1 + X.shape[1])
        # zeros()創建了一個 長度為 1+X.shape[1] = 1+n_features 的 0數組
        #初始化權值為0
        # self.w_ 權向量
        self.errors_ = []
        for _ in range(self.n_iter):
            errors = 0
            for xi, target in zip(X,y):
                update = self.eta * (target - self.predict(xi))
                self.w_[1:] += update * xi
                self.w_[0] += update #更新權值，x0 =1
                errors += int(update != 0.0)
            self.errors_.append(errors) #每一步的累積誤差
        return self

    def net_input(self, X):
        """Calculate net input"""
        return (np.dot(X, self.w_[1:])+self.w_[0])

    def predict(self, X):
        """return class label after unit step"""
        return np.where(self.net_input(X) >= 0.0, 1, -1)

3.2 算法的收斂性

定理.Novikoff 設訓練數據集 $T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ 是線性可分的，其中， $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ，則：

（1）存在滿足條件 $\left \| \hat{w}_{opt} \right \|=1$ 的超平面 $\hat{w}_{opt}\cdot \hat{x}=w_{opt}\cdot x+b_{opt}=0$ 將訓練數據集完整正確分開；並存在 $\gamma >0$ ，對所有 $i=1,2,...,N$

$y_{i}(\hat{w}_{opt}\cdot \hat{x}_{i})=y_{i}(w_{opt}\cdot x_{i}+b_{opt})\geqslant \gamma \\$

（2）令 $R=\underset{1\leqslant i\leqslant N}{max}\left \| \hat{x}_{i} \right \|$ ，則感知機算法在訓練集上的誤分類次數 $k$ 滿足不等式：

$k\leqslant (\frac{R}{\gamma })^{2}\\$

3.3 感機學習算法的對偶形式

上面的感知機模型的算法形式我們一般稱為感知機模型的算法原始形式。對偶形式是對算法執行速度的優化。

通過上一節感知機模型的算法原始形式 $w = w + \eta y_{i}x_{i},b=b+\eta y_{i}$ 可以看出，我們每次梯度的迭代都是選擇的一個樣本來更新 $w,b$ 向量。最終經過若干次的迭代得到最終的結果。對於從來都沒有誤分類過的樣本，他被選擇參與 $w,b$ 迭代的次數是0，對於被多次誤分類而更新的樣本 $j$ ，它參與 $w,b$ 迭代的次數我們設置為 $n_i$ 。如果令 $w,b$ 向量初始值為0向量， $w,b$ 修改n次，則 $w,b$ 關於 $\left( x_{i}, y_{i} \right)$ 的增量分別是 $\alpha_{i} y_{i} x_{i}$ 和 $\alpha_{i} y_{i}$ ，其中 $\alpha_{i} = n_{i} \eta$ 。 $w,b$ 可表示為

$\begin{align*} \\& w = \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ & b = \sum_{i=1}^{N} \alpha_{i} y_{i} \end{align*} \\$
其中， $\alpha_{i} \geq 0, i=1,2, \cdots, N$

感知機算法（對偶形式）：
輸入：訓練數據集 $T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} = R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ；學習率 $\eta \left( 0 < \eta \leq 1 \right)$ 。
輸出： $\alpha,b$ ；感知機模型 $f \left( x \right) = sign \left( \sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x + b \right)$ ，其中 $\alpha = \left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{N} \right)^{T}$
1. $\alpha \leftarrow 0, b \leftarrow 0$
2. 在訓練集中選取數據 $\left( x_{i}, y_{i} \right)$
3. 如果 $y_{i} \left( \sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x_{i} + b \right) \leq 0$
$\begin{align*} \\& \alpha_{i} \leftarrow \alpha_{i} + \eta \\ & b \leftarrow b + \eta y_{i} \end{align*} \\$

4. 轉至2，直至訓練集中沒有誤分類點。