Numpy梯度下降反向傳播代碼實現

本文轉載自查看原文 2020-09-27 20:39 509 ML / DL

代碼

# -*- coding: utf-8 -*-
import numpy as np

# N是批量大小; D_in是輸入維度;
# 49/5000 H是隱藏的維度; D_out是輸出維度。
N, D_in, H, D_out = 64, 1000, 100, 10

# 創建隨機輸入和輸出數據
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# 隨機初始化權重
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # 前向傳遞：計算預測值y
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # 計算和打印損失loss
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # 反向傳播，計算w1和w2對loss的梯度
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # 更新權重
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

這段代碼是我隨便找的，包含一個隱藏層，很簡單，就以這個作為舉例。

反向傳播

先看下正向傳播：

$$h = xw^{1}$$

$$h\_relu = ReLU(h)$$

$$y\_pred=h\_relu · w^{2}$$

$$loss=(y\_pred-y)^2$$

當我們反向傳播時，需要從Output Layer層開始，利用鏈式求導法則，一步一步求導計算。

E.g. 計算loss對$w^2$的偏導過程如下：

$$\frac{\partial loss}{\partial w^2} = \frac{\partial loss}{\partial y\_pred}\frac{\partial y\_pred}{\partial w^2}=2(y\_pred-y)·h\_relu$$

然而，雖然推導出來了，但是用代碼實現時可能又會遇到困難，不知道誰在前誰在后，而且往往還需要轉置。最好的解決辦法其實就是看維度，需要記住的是，向量對標量求導的結果的維度和向量的維度是一致的。

故在上式中，$\frac{\partial loss}{\partial w^2}$的維度是$(100,10)$，$\frac{\partial loss}{\partial y\_pred}$的維度是$(64,10)$，$\frac{\partial y\_pred}{\partial w^2}$的維度是$(64,100)$。這兩者相乘后的維度得為$(100, 10)$，那就只有將后者轉置后相乘，即$(64,100)^T·(64,10)$。寫成代碼就正好是：

 grad_w2 = h_relu.T.dot(grad_y_pred)

其余的推導皆是如此。可以看到手動實現反向傳播是十分麻煩的，層數一多根本不可能自己一個一個去算，所以后面需要用到自動求導。

參考：

[1]. 道理我都懂，但是神經網絡反向傳播時的梯度到底怎么求？

[2]. PyTorch之小試牛刀

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 梯度下降法與反向傳播梯度下降、反向傳播原理，計算圖神經網絡系列之二 -- 反向傳播與梯度下降批梯度下降和隨機梯度下降的區別和代碼實現神經網絡和反向傳播算法——反向傳播算法本質上是隨機梯度下降，鏈式求導法則而來的 <反向傳播(backprop)>梯度下降法gradient descent的發展歷史與各版本 Pytorch-反向傳播梯度《神經網絡的梯度推導與代碼驗證》之vanilla RNN的前向傳播和反向梯度推導《神經網絡的梯度推導與代碼驗證》之LSTM的前向傳播和反向梯度推導《神經網絡的梯度推導與代碼驗證》之FNN（DNN）的前向傳播和反向梯度推導