機器學習（ML）三之多層感知機

本文轉載自查看原文 2020-02-13 10:35 15413 relu/ 多層感知機/ ML

多層感知機

深度學習主要關注多層模型，現在以多層感知機（multilayer perceptron，MLP）為例，介紹多層神經網絡的概念。

隱藏層

多層感知機在單層神經網絡的基礎上引入了一到多個隱藏層（hidden layer）。隱藏層位於輸入層和輸出層之間。圖展示了一個多層感知機的神經網絡圖。

模型圖所示的多層感知機中，輸入和輸出個數分別為4和3，中間的隱藏層中包含了5個隱藏單元（hidden unit）。由於輸入層不涉及計算，模型圖中的多層感知機的層數為2。由模型圖可見，隱藏層中的神經元和輸入層中各個輸入完全連接，輸出層中的神經元和隱藏層中的各個神經元也完全連接。因此，多層感知機中的隱藏層和輸出層都是全連接層。

具體來說，給定一個小批量樣本 $X \in R^{n \times d}$

$X \in R^{n \times d}$

也就是將隱藏層的輸出直接作為輸出層的輸入。如果將以上兩個式子聯立起來，可以得到

從聯立后的式子可以看出，雖然神經網絡引入了隱藏層，卻依然等價於一個單層神經網絡：其中輸出層權重參數為W_hW₀,偏差參數為b_hW₀+b。難發現，即便再添加更多的隱藏層，以上設計依然只能與僅含輸出層的單層神經網絡等價。

激活函數

上述問題的根源在於全連接層只是對數據做仿射變換（affine transformation），而多個仿射變換的疊加仍然是一個仿射變換。解決問題的一個方法是引入非線性變換，例如對隱藏變量使用按元素運算的非線性函數進行變換，然后再作為下一個全連接層的輸入。這個非線性函數被稱為激活函數（activation function）。下面我們介紹幾個常用的激活函數。

ReLU函數

ReLU（rectified linear unit）函數提供了一個很簡單的非線性變換。給定元素 $x$

可以看出，ReLU函數只保留正數元素，並將負數元素清零。為了直觀地觀察這一非線性變換，我們先定義一個繪圖函數xyplot。

%matplotlib inline
import d2lzh as d2l
from mxnet import autograd, nd

def xyplot(x_vals, y_vals, name):
    d2l.set_figsize(figsize=(5, 2.5))
    d2l.plt.plot(x_vals.asnumpy(), y_vals.asnumpy())
    d2l.plt.xlabel('x')
    d2l.plt.ylabel(name + '(x)')

我們接下來通過NDArray提供的relu函數來繪制ReLU函數。可以看到，該激活函數是一個兩段線性函數。

x = nd.arange(-8.0, 8.0, 0.1)
x.attach_grad()
with autograd.record():
    y = x.relu()
xyplot(x, y, 'relu')

顯然，當輸入為負數時，ReLU函數的導數為0；當輸入為正數時，ReLU函數的導數為1。盡管輸入為0時ReLU函數不可導，但是我們可以取此處的導數為0。下面繪制ReLU函數的導數。

y.backward()
xyplot(x, x.grad, 'grad of relu')

sigmoid函數

sigmoid函數可以將元素的值變換到0和1之間：

sigmoid函數在早期的神經網絡中較為普遍，但它目前逐漸被更簡單的ReLU函數取代。在后面“循環神經網絡”一章中我們會介紹如何利用它值域在0到1之間這一特性來控制信息在神經網絡中的流動。下面繪制了sigmoid函數。當輸入接近0時，sigmoid函數接近線性變換。

with autograd.record():
    y = x.sigmoid()
xyplot(x, y, 'sigmoid')

依據鏈式法則，sigmoid函數的導數

下面繪制了sigmoid函數的導數。當輸入為0時，sigmoid函數的導數達到最大值0.25；當輸入越偏離0時，sigmoid函數的導數越接近0。

y.backward()
xyplot(x, x.grad, 'grad of sigmoid')

tanh函數

tanh（雙曲正切）函數可以將元素的值變換到-1和1之間：

繪制tanh函數。當輸入接近0時，tanh函數接近線性變換。雖然該函數的形狀和sigmoid函數的形狀很像，但tanh函數在坐標系的原點上對稱。

with autograd.record():
    y = x.tanh()
xyplot(x, y, 'tanh')

依據鏈式法則，tanh函數的導數

繪制了tanh函數的導數。當輸入為0時，tanh函數的導數達到最大值1；當輸入越偏離0時，tanh函數的導數越接近0。

y.backward()
xyplot(x, x.grad, 'grad of tanh')