神經網絡算法

本文轉載自查看原文 2018-03-08 10:29 1101 深度學習

機器學習算法完整版見fenghaootong-github

神經網絡原理

感知機學習算法
神經網絡
- 從感知機到神經網絡
- 多層前饋神經網絡
- bp算法

感知機學習算法

感知機（perceptron）是二分類的線性分類模型，屬於監督學習算法。輸入為實例的特征向量，輸出為實例的類別（取+1和-1）。感知機對應於輸入空間中將實例划分為兩類的分離超平面。感知機旨在求出該超平面，為求得超平面導入了基於誤分類的損失函數，利用梯度下降法對損失函數進行最優化（最優化）。
是神經網絡和支持向量機的基礎。

感知機定義

假設輸入空間(特征向量)為 $X \subseteq R n$ ，輸出空間為 $Y = - 1, + 1$ 。輸入 $x \in X$ 表示實例的特征向量，對應於輸入空間的點；輸出 $y \in Y$ 表示示例的類別。由輸入空間到輸出空間的函數為

$f (\vec{x}) = s i g n (\vec{w} \cdot \vec{x} + b)$

s i g n (x) = {+ 1 - 1 i f x \geq 0 else

感知機學習策略

如果訓練集是可分的，感知機的學習目的是求得一個能將訓練集正實例點和負實例點完全分開的分離超平面。為了找到這樣一個平面（或超平面），即確定感知機模型參數 $\vec{w}$ 和b，我們采用的是損失函數，同時並將損失函數極小化。

對於正確分類的樣本點 $(\vec{x_{i}}, y_{i})$ , 有 $(\vec{w} \cdot \vec{x_{i}} + b) y_{i} > 0$
對於誤分類的樣本點 $(\vec{x_{i}}, y_{i})$ , 有 $(\vec{w} \cdot \vec{x_{i}} + b) y_{i} < 0$

誤分類點到超平面的距離:

1 | | w ⃗ | | 2 | (w ⃗ \cdot x i \to + b) |

$| | \vec{w} | |_{2}$ 為 $\vec{w}$ 的 $L_{2}$ 范數

對於誤分類點：

- (w ⃗ \cdot x i \to + b) y i > 0

- 1 | | w ⃗ | | 2 (w ⃗ \cdot x i \to + b) y i

所有的點到超平面的距離:

- 1 | | w ⃗ | | 2 \sum x i \to \in M (w ⃗ \cdot x i \to + b) y i

不考慮 $\frac{1}{| | \vec{w} | |_{2}}$ ，就得到了感知機的損失函數：

L (w ⃗, b) = - \sum x i \to \in M (w ⃗ \cdot x i \to + b) y i

感知機學習算法

感知機學習轉變成求解損失函數 $L (\vec{w}, b)$ 的最優化問題。最優化的方法是隨機梯度下降法

min w ⃗, b L (w ⃗, b) = - min w ⃗, b \sum x i \to \in M (w ⃗ \cdot x i \to + b) y i

定義損失函數的梯度：

\nabla w ⃗ L (w ⃗, b) = - \sum x i \to \in M y i x i \to

\nabla b L (w ⃗, b) = - \sum x i \to \in M y i

隨機選取一個誤分類點，更新 $\vec{w}, b$ 的值：

w ⃗ : = w ⃗ + η y i x i \to

b : = b + η y i

$η \in (0, 1]$

神經網絡

從感知機到神經網絡

感知機可以看作神經網絡的特例。感知機由兩層神經元組成：輸入層接收外界輸入信號，輸出層是M-P神經元。
感知機只有輸出層神經元進行激活函數處理，即只擁有一層功能神經元

多層前饋神經網絡

感知機只擁有一層功能神經元，它只能處理線性可分的問題，要想解決非線性可分問題，可以使用多層功能神經元
神經網絡的結構：
- 每層神經元與下一層神經元全部相連
- 同層神經元之間不存在連接
- 跨層神經元之間也不存在連接
多層前饋神經網絡有一下特點：
- 掩藏層和輸出層神經元都擁有激活函數
- 輸入層接收外界輸入信號，不進行激活函數處理
- 最終結果由輸出層神經元給出

下圖是一個簡單的神經網絡

這里寫圖片描述

激活函數

隱藏層和輸出層都需要激活函數

我們選用sigmod函數作為激活函數：

z (l) i = \sum j = 1 n W (l - 1) i j a (l - 1) j + b (l - 1) i

f (z (l) i) = 1 1 + e - z ( l ) i

參數說明：

$a_{i}^{(l)} : 表示第 l 层第 i 个单元的输出值$
$W_{i j}^{(l)} : 表示第 l 层第 j 单元和第 l + 1 层第 i 单元之间的权重$
$b_{i}^{(l)} : 表示第 l + 1 层第 i 单元的偏置项$
$z_{i}^{(l)} : 表示第 l 层第 i 个单元输入加权和$

對於給定參數集合 $W, b$ ，我們的神經網絡就可以按照函數 $h_{W, b} (x)$ 來計算輸出結果。上圖神經網絡的計算步驟如下：

a (2) 1 = f (W (1) 11 x 1 + W (1) 12 x 2 + W (1) 13 x 3 + b (1) 1)

a (2) 2 = f (W (1) 21 x 1 + W (1) 22 x 2 + W (1) 23 x 3 + b (1) 1)

a (2) 3 = f (W (1) 31 x 1 + W (1) 32 x 2 + W (1) 33 x 3 + b (1) 2)

h W, b (x) = a (3) 1 = f (W (1) 11 x 1 + W (1) 12 x 2 + W (1) 13 x 3 + b (1) 1)

上面的計算步驟叫做前向傳播

反向傳播算法

代價函數

C = 1 2 n \sum i = 1 n | | y i (x) - a (L) i (x) | | 2

$其中， x 表示输入的样本， y 表示实际的分类， a^{(L)} 表示预测的输出， L 表示神经网络的最大层数。$

公式及其推導

首先，將第l層第i個神經元中產生的錯誤（即實際值與預測值之間的誤差）定義為：

δ (l) i \equiv \partial C \partial z ( l ) i

為了便於理解，下面都是一個樣本

最后一層神經網絡產生的錯誤：

δ (L) i = \nabla a C ⊙ f' (z (L) i)

$⊙$ 用於矩陣或向量之間點對點的乘法運算

由后往前，計算每一層神經網絡產生的錯誤：

δ (l) i = ((w (l)) T δ (l + 1) i) ⊙ f' (z (l) i)

權重的梯度：

\partial C \partial w ( l ) i j = a (l) j δ (l + 1) i

偏置的梯度：

\partial C \partial b ( l ) i = δ (l) i

使用梯度下降，訓練參數：

w (l) : = w (l) - η m \sum i = 1 n δ (l) i (a (l) i) T

b (l) : = b (l) - η m \sum i = 1 n δ (l) i

實例

神經網絡應用實例

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 神經網絡算法神經網絡——BP算法機器學習-神經網絡算法(一) JAVA實現BP神經網絡算法神經網絡之后向傳播算法經典卷積神經網絡算法(4)：GoogLeNet BP神經網絡算法推導經典卷積神經網絡算法(2)：AlexNet 神經網絡之反向傳播算法實現 BP神經網絡算法及Matlab實現