神經網絡系列之二 -- 反向傳播與梯度下降

本文轉載自查看原文 2019-12-20 11:11 1334

系列博客，原文在筆者所維護的github上：https://aka.ms/beginnerAI，
點擊star加星不要吝嗇，星越多筆者越努力。

第2章神經網絡中的三個基本概念

2.0 通俗地理解三大概念

這三大概念是：反向傳播，梯度下降，損失函數。

神經網絡訓練的最基本的思想就是：先“猜”一個結果，我們叫預測結果a，看看這個預測結果和事先標記好的訓練集中的真實結果y之間的差距，然后調整策略，再試一次，這一次就不是“猜”了，而是有依據地向正確的方向靠近。如此反復多次，一直到預測結果和真實結果之間相差無幾，亦即|a-y|->0，就結束訓練。

在神經網絡訓練中，我們把“猜”叫做初始化，可以隨機，也可以根據以前的經驗給定初始值。即使是“猜”，也是有技術含量的。

這三個概念是前后緊密相連的，講到一個，肯定會牽涉到另外一個。但由於損失函數篇幅較大，我們將在下一章中再詳細介紹。

下面我們舉幾個例子來直觀的說明下這三個概念。

2.0.1 例一：猜數

甲乙兩個人玩兒猜數的游戲，數字的范圍是[1,50]：

甲：我猜5

乙：太小了

甲：50

乙：有點兒大

甲：30

乙：小了

......

在這個游戲里：

目的：猜到乙心中的數字；
初始化：甲猜5；
前向計算：甲每次猜的新數字；
損失函數：乙在根據甲猜的數來和自己心中想的數做比較，得出“大了”或“小了”的結論；
反向傳播：乙告訴甲“小了”、“大了”；
梯度下降：甲根據乙的反饋中的含義自行調整下一輪的猜測值。

這里的損失函數是什么呢？就是“太小了”，“有點兒大”，很不精確！這個“所謂的”損失函數給出了兩個信息：

方向：大了或小了
程度：“太”，“有點兒”，但是很模糊

2.0.2 例二：黑盒子

假設有一個黑盒子如圖2-1。

圖2-1 黑盒子

我們只能看到輸入和輸出的數值，看不到里面的樣子，當輸入1時，輸出2.334，然后黑盒子有個信息顯示：我需要輸出值是4。然后我們試了試輸入2，結果輸出5.332，一下子比4大了很多。那么我們第一次的損失值是\(2.334-4=-1.666\)，而二次的損失值是\(5.332-4=1.332\)。

這里，我們的損失函數就是一個簡單的減法，用實際值減去目標值，但是它可以告訴你兩個信息：1）方向，是大了還是小了；2）差值，是0.1還是1.1。這樣就給了我們下一次猜的依據。

目的：猜到一個輸入值，使得黑盒子的輸出是4
初始化：輸入1
前向計算：黑盒子內部的數學邏輯
損失函數：在輸出端，用輸出值減4
反向傳播：告訴猜數的人差值，包括正負號和值
梯度下降：在輸入端，根據正負號和值，確定下一次的猜測值，goto前向計算

2.0.3 例三：打靶

小明拿了一支步槍，射擊100米外的靶子。這支步槍沒有准星，或者是准星有問題，或者是小明眼神兒不好看不清靶子，或者是霧很大，或者風很大，或者由於木星的影響而側向引力場異常......反正就是遇到各種干擾因素。

第一次試槍后，拉回靶子一看，彈着點偏左了，於是在第二次試槍時，小明就會有意識地向右側偏幾毫米，再看靶子上的彈着點，如此反復幾次，小明就會掌握這支步槍的脾氣了。圖2-2顯示了小明的5次試槍過程。

圖2-2 打靶的彈着點記錄

在有監督的學習中，需要衡量神經網絡輸出和所預期的輸出之間的差異大小。這種誤差函數需要能夠反映出當前網絡輸出和實際結果之間一種量化之后的不一致程度，也就是說函數值越大，反映出模型預測的結果越不准確。

這個例子中，小明預期的目標是全部命中靶子的中心，最外圈是1分，之后越向靶子中心分數是2，3，4分，正中靶心可以得10分。

每次試槍彈着點和靶心之間的差距就叫做誤差，可以用一個誤差函數來表示，比如差距的絕對值，如圖中的紅色線。
一共試槍5次，就是迭代/訓練了5次的過程。
每次試槍后，把靶子拉回來看彈着點，然后調整下一次的射擊角度的過程，叫做反向傳播。注意，把靶子拉回來看和跑到靶子前面去看有本質的區別，后者容易有生命危險，因為還有別的射擊者。一個不恰當的比喻是，在數學概念中，人跑到靶子前面去看，叫做正向微分；把靶子拉回來看，叫做反向微分。
每次調整角度的數值和方向，叫做梯度。比如向右側調整1毫米，或者向左下方調整2毫米。如圖中的綠色矢量線。

上圖是每次單發點射，所以每次訓練樣本的個數是1。在實際的神經網絡訓練中，通常需要多個樣本，做批量訓練，以避免單個樣本本身采樣時帶來的誤差。在本例中，多個樣本可以描述為連發射擊，假設一次可以連打3發子彈，每次的離散程度都類似，如圖2-3所示。

圖2-3 連發彈着點記錄

如果每次3發子彈連發，這3發子彈的彈着點和靶心之間的差距之和再除以3，叫做損失，可以用損失函數來表示。

那小明每次射擊結果和目標之間的差距是多少呢？在這個例子里面，用得分來衡量的話，就是說小明得到的反饋結果從差9分，到差8分，到差2分，到差1分，到差0分，這就是用一種量化的結果來表示小明的射擊結果和目標之間差距的方式。也就是誤差函數的作用。因為是一次只有一個樣本，所以這里采用的是誤差函數的稱呼。如果一次有多個樣本，就要叫做損失函數了。

其實射擊還不這么簡單，如果是遠距離狙擊，還要考慮空氣阻力和風速，在神經網絡里，空氣阻力和風速可以對應到隱藏層的概念上。

在這個例子中：

目的：打中靶心；
初始化：隨便打一槍，能上靶就行，但是要記住當時的步槍的姿態；
前向計算：讓子彈飛一會兒，擊中靶子；
損失函數：環數，偏離角度；
反向傳播：把靶子拉回來看；
梯度下降：根據本次的偏差，調整步槍的射擊角度，goto前向計算。

損失函數的描述是這樣的：

1環，偏左上45度；
6環，偏左上15度；
7環，偏左；
8環，偏左下15度；
10環。

這里的損失函數也有兩個信息：

距離；
方向。

所以，梯度，是個矢量！ 它應該即告訴我們方向，又告訴我們數值。

2.0.4 黑盒子的真正玩兒法

以上三個例子比較簡單，容易理解，我們把黑盒子再請出來：黑盒子這件事真正的意義並不是猜測當輸入是多少時輸出會是4。它的實際意義是：我們要破解這個黑盒子！於是，我們會有如下破解流程：

記錄下所有輸入值和輸出值，如表2-1。

表2-1 樣本數據表

樣本ID	輸入(特征值)	輸出(標簽)
1	1	2.21
2	1.1	2.431
3	1.2	2.652
4	2	4.42

搭建一個神經網絡，給出初始權重值，我們先假設這個黑盒子的邏輯是：\(z=x + x^2\)；
輸入1，根據\(z=x + x^2\)得到輸出為2，而實際的輸出值是2.21，則誤差值為\(2-2.21=-0.21\)，小了；
調整權重值，比如\(z=1.5x+x^2\)，再輸入1.1，得到的輸出為2.86，實際輸出為2.431，則誤差值為\(2.86-2.431=0.429\)，大了；
調整權重值，比如\(z=1.2x+x^2\)再輸入1.2......
調整權重值，再輸入2......
所有樣本遍歷一遍，計算平均的損失函數值；
依此類推，重復3，4，5，6過程，直到損失函數值小於一個指標，比如0.001，我們就可以認為網絡訓練完畢，黑盒子“破解”了，實際是被復制了，因為神經網絡並不能得到黑盒子里的真實函數體，而只是近似模擬。

從上面的過程可以看出，如果誤差值是正數，我們就把權重降低一些；如果誤差值為負數，則升高權重。

2.0.5 總結

簡單總結一下反向傳播與梯度下降的基本工作原理：

初始化；
正向計算；
損失函數為我們提供了計算損失的方法；
梯度下降是在損失函數基礎上向着損失最小的點靠近而指引了網絡權重調整的方向；
反向傳播把損失值反向傳給神經網絡的每一層，讓每一層都根據損失值反向調整權重；
goto 2，直到精度足夠好（比如損失函數值小於0.001）。

系列博客，原文在筆者所維護的github上：https://aka.ms/beginnerAI，
點擊star加星不要吝嗇，星越多筆者越努力。

2.1 線性反向傳播

2.1.1 正向計算的實例

假設我們有一個函數：

\[z = x \cdot y \tag{1} \]

其中:

\[x = 2w + 3b \tag{2} \]

\[y = 2b + 1 \tag{3} \]

計算圖如圖2-4。

圖2-4 簡單線性計算的計算圖

注意這里x, y, z不是變量，只是計算結果。w, b是才變量。因為在后面要學習的神經網絡中，我們要最終求解的是w和b的值，在這里先預熱一下。

當w = 3, b = 4時，會得到圖2-5的結果。

圖2-5 計算結果

最終的z值，受到了前面很多因素的影響：變量w，變量b，計算式x，計算式y。常數是個定值，不考慮。

2.1.2 反向傳播求解w

求w的偏導

目前的z=162，如果我們想讓z變小一些，比如目標是z=150，w應該如何變化呢？為了簡化問題，我們先只考慮改變w的值，而令b值固定為4。

如果想解決這個問題，我們可以在輸入端一點一點的試，把w變成4試試，再變成3.5試試......直到滿意為止。現在我們將要學習一個更好的解決辦法：反向傳播。

我們從z開始一層一層向回看，圖中各節點關於變量w的偏導計算結果如下：

\[因為z = x \cdot y，其中x = 2w + 3b，y = 2b + 1 \]

所以：

\[\frac{\partial{z}}{\partial{w}}=\frac{\partial{z}}{\partial{x}} \cdot \frac{\partial{x}}{\partial{w}}=y \cdot 2=18 \tag{4} \]

其中：

\[\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x \cdot y)=y=9 \]

\[\frac{\partial{x}}{\partial{w}}=\frac{\partial{}}{\partial{w}}(2w+3b)=2 \]

圖2-6 對w的偏導求解過程

圖2-6其實就是鏈式法則的具體表現，z的誤差通過中間的x傳遞到w。如果不是用鏈式法則，而是直接用z的表達式計算對w的偏導數，會是什么樣呢？我們來試驗一下。

根據公式1、2、3，我們有：

\[z=x \cdot y=(2w+3b)(2b+1)=4wb+2w+6b^2+3b \tag{5} \]

對上式求w的偏導：

\[{\partial z \over \partial w}=4b+2=4 \cdot 4 + 2=18 \tag{6} \]

公式4和公式6的結果完全一致！所以，請大家相信鏈式法則的科學性。

求w的具體變化值

公式4和公式6的含義是：當w變化一點點時，z會發生w的變化值的18倍的變化。記住我們的目標是讓z=150，目前在初始狀態時是162，所以，問題轉化為：當我們需要z從162變到150時，w需要變化多少？

既然：

\[\Delta z = 18 \cdot \Delta w \]

則：

\[\Delta w = {\Delta z \over 18}={162-150 \over 18}= 0.6667 \]

所以：

\[w = w - 0.6667=2.3333 \]

\[x=2w+3b=16.6667 \]

\[z=x \cdot y=16.6667 \times 9=150.0003 \]

我們一下子就成功地讓z值變成了150.0003，與150的目標非常地接近，這就是偏導數的威力所在。

【課堂練習】推導z對b的偏導數，結果在下一小節中使用

2.1.3 反向傳播求解b

求b的偏導

這次我們令w的值固定為3，變化b的值，目標還是讓z=150。同上一小節一樣，先求b的偏導數。

注意，在上一小節中，求w的導數只經過了一條路：從z到x到w。但是求b的導數時要經過兩條路，如圖2-7所示：

從z到x到b
從z到y到b

圖2-7 對b的偏導求解過程

從復合導數公式來看，這兩者應該是相加的關系，所以有：

\[\frac{\partial{z}}{\partial{b}}=\frac{\partial{z}}{\partial{x}} \cdot \frac{\partial{x}}{\partial{b}}+\frac{\partial{z}}{\partial{y}}\cdot\frac{\partial{y}}{\partial{b}}=y \cdot 3+x \cdot 2=63 \tag{7} \]

其中：

\[\frac{\partial{z}}{\partial{x}}=\frac{\partial{}}{\partial{x}}(x \cdot y)=y=9 \]

\[\frac{\partial{z}}{\partial{y}}=\frac{\partial{}}{\partial{y}}(x \cdot y)=x=18 \]

\[\frac{\partial{x}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(2w+3b)=3 \]

\[\frac{\partial{y}}{\partial{b}}=\frac{\partial{}}{\partial{b}}(2b+1)=2 \]

我們不妨再驗證一下鏈式求導的正確性。把公式5再拿過來：

\[z=x \cdot y=(2w+3b)(2b+1)=4wb+2w+6b^2+3b \tag{5} \]

對上式求b的偏導：

\[{\partial z \over \partial b}=4w+12b+3=12+48+3=63 \tag{8} \]

結果和公式7的鏈式法則一樣。

求b的具體變化值

公式7和公式8的含義是：當b變化一點點時，z會發生b的變化值的63倍的變化。記住我們的目標是讓z=150，目前在初始狀態時是162，所以，問題轉化為：當我們需要z從162變到150時，b需要變化多少？

既然：

\[\Delta z = 63 \cdot \Delta b \]

則：

\[\Delta b = {\Delta z \over 63}={162-150 \over 63}=0.1905 \]

所以：

\[b=b-0.1905=3.8095 \]

\[x=2w+3b=17.4285 \]

\[y=2b+1=8.619 \]

\[z=x \cdot y=17.4285 \times 8.619=150.2162 \]

這個結果也是與150很接近了，但是精度還不夠。再迭代幾次，應該可以近似等於150了，直到誤差不大於1e-4時，我們就可以結束迭代了，對於計算機來說，這些運算的執行速度很快。

【課題練習】請自己嘗試手動繼續迭代兩次，看看誤差的精度可以達到多少？

這個問題用數學公式倒推求解一個二次方程，就能直接得到准確的b值嗎？是的！但是我們是要說明機器學習的方法，機器並不會解二次方程，而且很多時候不是用二次方程就能解決實際問題的。而上例所示，是用機器所擅長的迭代計算的方法來不斷逼近真實解，這就是機器學習的真諦！而且這種方法是普遍適用的。

2.1.4 同時求解w和b的變化值

這次我們要同時改變w和b，到達最終結果為z=150的目的。

已知\(\Delta z=12\)，我們不妨把這個誤差的一半算在w賬上，另外一半算在b的賬上：

\[\Delta b=\frac{\Delta z / 2}{63} = \frac{12/2}{63}=0.095 \]

\[\Delta w=\frac{\Delta z / 2}{18} = \frac{12/2}{18}=0.333 \]

\(w = w-\Delta w=3-0.333=2.667\)
\(b = b - \Delta b=4-0.095=3.905\)
\(x=2w+3b=2 \times 2.667+3 \times 3.905=17.049\)
\(y=2b+1=2 \times 3.905+1=8.81\)
\(z=x \times y=17.049 \times 8.81=150.2\)

【課堂練習】用Python代碼實現以上雙變量的反向傳播計算過程

容易出現的問題：

在檢查Δz時的值時，注意要用絕對值，因為有可能是個負數
在計算Δb和Δw時，第一次時，它們對z的貢獻值分別是1/63和1/18，但是第二次時，由於b和w值的變化，對於z的貢獻值也會有微小變化，所以要重新計算。具體解釋如下：

\[\frac{\partial{z}}{\partial{w}}=\frac{\partial{z}}{\partial{x}} \cdot \frac{\partial{x}}{\partial{w}}+\frac{\partial{z}}{\partial{y}}\cdot\frac{\partial{y}}{\partial{w}}=y \cdot 2+x \cdot 0 = 2y \]

所以，在每次迭代中，要重新計算下面兩個值：

\[\Delta b=\frac{\Delta z}{3y+2x} \]

\[\Delta w=\frac{\Delta z}{2y} \]

以下是程序的運行結果。

沒有在迭代中重新計算Δb的貢獻值：

single variable: b -----
w=3.000000,b=4.000000,z=162.000000,delta_z=12.000000
delta_b=0.190476
w=3.000000,b=3.809524,z=150.217687,delta_z=0.217687
delta_b=0.003455
w=3.000000,b=3.806068,z=150.007970,delta_z=0.007970
delta_b=0.000127
w=3.000000,b=3.805942,z=150.000294,delta_z=0.000294
delta_b=0.000005
w=3.000000,b=3.805937,z=150.000011,delta_z=0.000011
delta_b=0.000000
w=3.000000,b=3.805937,z=150.000000,delta_z=0.000000
done!
final b=3.805937

在每次迭代中都重新計算Δb的貢獻值：

single variable new: b -----
w=3.000000,b=4.000000,z=162.000000,delta_z=12.000000
factor_b=63.000000, delta_b=0.190476
w=3.000000,b=3.809524,z=150.217687,delta_z=0.217687
factor_b=60.714286, delta_b=0.003585
w=3.000000,b=3.805938,z=150.000077,delta_z=0.000077
factor_b=60.671261, delta_b=0.000001
w=3.000000,b=3.805937,z=150.000000,delta_z=0.000000
done!
final b=3.805937

從以上兩個結果對比中，可以看到三點：

factor_b第一次是63，以后每次都會略微降低一些
第二個函數迭代了3次就結束了，而第一個函數迭代了5次，效率不一樣
最后得到的結果是一樣的，因為這個問題只有一個解

對於雙變量的迭代，有同樣的問題：

沒有在迭代中重新計算Δb,Δw的貢獻值(factor_b和factor_w每次都保持63和18)：

double variable: w, b -----
w=3.000000,b=4.000000,z=162.000000,delta_z=12.000000
delta_b=0.095238, delta_w=0.333333
w=2.666667,b=3.904762,z=150.181406,delta_z=0.181406
delta_b=0.001440, delta_w=0.005039
w=2.661628,b=3.903322,z=150.005526,delta_z=0.005526
delta_b=0.000044, delta_w=0.000154
w=2.661474,b=3.903278,z=150.000170,delta_z=0.000170
delta_b=0.000001, delta_w=0.000005
w=2.661469,b=3.903277,z=150.000005,delta_z=0.000005
done!
final b=3.903277
final w=2.661469

在每次迭代中都重新計算Δb,Δw的貢獻值(factor_b和factor_w每次都變化)：

double variable new: w, b -----
w=3.000000,b=4.000000,z=162.000000,delta_z=12.000000
factor_b=63.000000, factor_w=18.000000, delta_b=0.095238, delta_w=0.333333
w=2.666667,b=3.904762,z=150.181406,delta_z=0.181406
factor_b=60.523810, factor_w=17.619048, delta_b=0.001499, delta_w=0.005148
w=2.661519,b=3.903263,z=150.000044,delta_z=0.000044
factor_b=60.485234, factor_w=17.613053, delta_b=0.000000, delta_w=0.000001
w=2.661517,b=3.903263,z=150.000000,delta_z=0.000000
done!
final b=3.903263
final w=2.661517

這個與第一個單變量迭代不同的地方是：這個問題可以有多個解，所以兩種方式都可以得到各自的正確解，但是第二種方式效率高，而且滿足梯度下降的概念。

參考資料

http://colah.github.io/posts/2015-08-Backprop/

代碼位置

ch02, Level1

系列博客，原文在筆者所維護的github上：https://aka.ms/beginnerAI，
點擊star加星不要吝嗇，星越多筆者越努力。

2.2 非線性反向傳播

2.2.1 提出問題

在上面的線性例子中，我們可以發現，誤差一次性地傳遞給了初始值w和b，即，只經過一步，直接修改w和b的值，就能做到誤差校正。因為從它的計算圖看，無論中間計算過程有多么復雜，它都是線性的，所以可以一次傳到底。缺點是這種線性的組合最多只能解決線性問題，不能解決更復雜的問題。這個我們在神經網絡基本原理中已經闡述過了，需要有激活函數連接兩個線性單元。

下面我們看一個非線性的例子，如圖2-8所示。

圖2-8 非線性的反向傳播

其中\(1<x<=10，0<y<2.15\)。假設有5個人分別代表x、a、b、c、y：

正向過程

第1個人，輸入層，隨機輸入第一個x值，x取值范圍(1,10]，假設第一個數是2
第2個人，第一層網絡計算，接收第1個人傳入x的值，計算：\(a=x^2\)
第3個人，第二層網絡計算，接收第2個人傳入a的值，計算b：\(b=\ln (a)\)
第4個人，第三層網絡計算，接收第3個人傳入b的值，計算c：\(c=\sqrt{b}\)
第5個人，輸出層，接收第4個人傳入c的值

反向過程

第5個人，計算y與c的差值：\(\Delta c = c - y\)，傳回給第4個人
第4個人，接收第5個人傳回\(\Delta c，計算\Delta b：\Delta b = \Delta c \cdot 2\sqrt{b}\)
第3個人，接收第4個人傳回\(\Delta b，計算\Delta a：\Delta a = \Delta b \cdot a\)
第2個人，接收第3個人傳回\(\Delta a，計算\Delta x：\Delta x = \Delta a / 2x\)
第1個人，接收第2個人傳回\(\Delta x，更新x：x = x - \Delta x\)，回到第1步

提出問題：假設我們想最后得到c=2.13的值，x應該是多少？（誤差小於0.001即可）

2.2.2 數學解析解

\[c=\sqrt{b}=\sqrt{\ln(a)}=\sqrt{\ln(x^2)}=2.13 \]

\[x = 9.6653 \]

2.2.3 梯度迭代解

\[\frac{da}{dx}=\frac{d(x^2)}{dx}=2x=\frac{\Delta a}{\Delta x} \tag{1} \]

\[\frac{db}{da} =\frac{d(\ln{a})}{da} =\frac{1}{a} = \frac{\Delta b}{\Delta a} \tag{2} \]

\[\frac{dc}{db}=\frac{d(\sqrt{b})}{db}=\frac{1}{2\sqrt{b}}=\frac{\Delta c}{\Delta b} \tag{3} \]

因此得到如下一組公式，可以把最后一層\(\Delta c\)的誤差一直反向傳播給最前面的\(\Delta x\)，從而更新x值：

\[\Delta c = c - y \tag{4} \]

\[\Delta b = \Delta c \cdot 2\sqrt{b} \tag{根據式3} \]

\[\Delta a = \Delta b \cdot a \tag{根據式2} \]

\[\Delta x = \Delta a / 2x \tag{根據式1} \]

我們給定初始值\(x=2，\Delta x=0\)，依次計算結果如表2-2。

表2-2 正向與反向的迭代計算

方向	公式	迭代1	迭代2	迭代3	迭代4	迭代5
正向	\(x=x-\Delta x\)	2	4.243	7.344	9.295	9.665
正向	\(a=x^2\)	4	18.005	53.934	86.404	93.233
正向	\(b=\ln(a)\)	1.386	2.891	3.988	4.459	4.535
正向	\(c=\sqrt{b}\)	1.177	1.700	1.997	2.112	2.129
	標簽值y	2.13	2.13	2.13	2.13	2.13
反向	\(\Delta c = c - y\)	-0.953	-0.430	-0.133	-0.018
反向	\(\Delta b = \Delta c \cdot 2\sqrt{b}\)	-2.243	-1.462	-0.531	-0.078
反向	\(\Delta a = \Delta b \cdot a\)	-8.973	-26.317	-28.662	-6.698
反向	\(\Delta x = \Delta a / 2x\)	-2.243	-3.101	-1.951	-0.360

表2-2，先看“迭代-1”列，從上到下是一個完整的正向+反向的過程，最后一行是-2.243，回到“迭代-2”列的第一行，2-(-2.243)=4.243，然后繼續向下。到第5輪時，正向計算得到的c=2.129，非常接近2.13了，迭代結束。

運行示例代碼的話，可以得到如下結果：

how to play: 1) input x, 2) calculate c, 3) input target number but not faraway from c
input x as initial number(1.2,10), you can try 1.3:
2
c=1.177410
input y as target number(0.5,2), you can try 1.8:
2.13
forward...
x=2.000000,a=4.000000,b=1.386294,c=1.177410
backward...
delta_c=-0.952590, delta_b=-2.243178, delta_a=-8.972712, delta_x=-2.243178
......
forward...
x=9.655706,a=93.232666,b=4.535098,c=2.129577
backward...
done!

為節省篇幅只列出了第一步和最后一步（第5步）的結果，第一步時c=1.177410，最后一步時c=2.129577，停止迭代。

代碼位置

ch02, Level2

系列博客，原文在筆者所維護的github上：https://aka.ms/beginnerAI，
點擊star加星不要吝嗇，星越多筆者越努力。

2.3 梯度下降

2.3.1 從自然現象中理解梯度下降

在大多數文章中，都以“一個人被困在山上，需要迅速下到谷底”來舉例，這個人會“尋找當前所處位置最陡峭的地方向下走”。這個例子中忽略了安全因素，這個人不可能沿着最陡峭的方向走，要考慮坡度。

在自然界中，梯度下降的最好例子，就是泉水下山的過程：

水受重力影響，會在當前位置，沿着最陡峭的方向流動，有時會形成瀑布（梯度下降）；
水流下山的路徑不是唯一的，在同一個地點，有可能有多個位置具有同樣的陡峭程度，而造成了分流（可以得到多個解）；
遇到坑窪地區，有可能形成湖泊，而終止下山過程（不能得到全局最優解，而是局部最優解）。

2.3.2 梯度下降的數學理解

梯度下降的數學公式：

\[\theta_{n+1} = \theta_{n} - \eta \cdot \nabla J(\theta) \tag{1} \]

其中：

\(\theta_{n+1}\)：下一個值；
\(\theta_n\)：當前值；
\(-\)：減號，梯度的反向；
\(\eta\)：學習率或步長，控制每一步走的距離，不要太快以免錯過了最佳景點，不要太慢以免時間太長；
\(\nabla\)：梯度，函數當前位置的最快上升點；
\(J(\theta)\)：函數。

梯度下降的三要素

當前點；
方向；
步長。

為什么說是“梯度下降”？

“梯度下降”包含了兩層含義：

梯度：函數當前位置的最快上升點；
下降：與導數相反的方向，用數學語言描述就是那個減號。

亦即與上升相反的方向運動，就是下降。

圖2-9 梯度下降的步驟

圖2-9解釋了在函數極值點的兩側做梯度下降的計算過程，梯度下降的目的就是使得x值向極值點逼近。

2.3.3 單變量函數的梯度下降

假設一個單變量函數：

\[J(x) = x ^2 \]

我們的目的是找到該函數的最小值，於是計算其微分：

\[J'(x) = 2x \]

假設初始位置為：

\[x_0=1.2 \]

假設學習率：

\[\eta = 0.3 \]

根據公式(1)，迭代公式：

\[x_{n+1} = x_{n} - \eta \cdot \nabla J(x)= x_{n} - \eta \cdot 2x\tag{1} \]

假設終止條件為J(x)<1e-2，迭代過程是：

x=0.480000, y=0.230400
x=0.192000, y=0.036864
x=0.076800, y=0.005898
x=0.030720, y=0.000944

上面的過程如圖2-10所示。

圖2-10 使用梯度下降法迭代的過程

2.3.4 雙變量的梯度下降

假設一個雙變量函數：

\[J(x,y) = x^2 + \sin^2(y) \]

我們的目的是找到該函數的最小值，於是計算其微分：

\[{\partial{J(x,y)} \over \partial{x}} = 2x \]

\[{\partial{J(x,y)} \over \partial{y}} = 2 \sin y \cos y \]

假設初始位置為：

\[(x_0,y_0)=(3,1) \]

假設學習率：

\[\eta = 0.1 \]

根據公式(1)，迭代過程是的計算公式：

\[(x_{n+1},y_{n+1}) = (x_n,y_n) - \eta \cdot \nabla J(x,y) \]

\[= (x_n,y_n) - \eta \cdot (2x,2 \cdot \sin y \cdot \cos y) \tag{1} \]

根據公式(1)，假設終止條件為\(J(x,y)<1e-2\)，迭代過程如表2-3所示。

表2-3 雙變量梯度下降的迭代過程

迭代次數	x	y	J(x,y)
1	3	1	9.708073
2	2.4	0.909070	6.382415
...	...	...	...
15	0.105553	0.063481	0.015166
16	0.084442	0.050819	0.009711

迭代16次后，J(x,y)的值為0.009711，滿足小於1e-2的條件，停止迭代。

上面的過程如表2-4所示，由於是雙變量，所以需要用三維圖來解釋。請注意看兩張圖中間那條隱隱的黑色線，表示梯度下降的過程，從紅色的高地一直沿着坡度向下走，直到藍色的窪地。

表2-4 在三維空間內的梯度下降過程

觀察角度1	觀察角度2

2.3.5 學習率η的選擇

在公式表達時，學習率被表示為\(\eta\)。在代碼里，我們把學習率定義為learning_rate，或者eta。針對上面的例子，試驗不同的學習率對迭代情況的影響，如表2-5所示。

表2-5 不同學習率對迭代情況的影響

學習率	迭代路線圖	說明
1.0		學習率太大，迭代的情況很糟糕，在一條水平線上跳來跳去，永遠也不能下降。
0.8		學習率大，會有這種左右跳躍的情況發生，這不利於神經網絡的訓練。
0.4		學習率合適，損失值會從單側下降，4步以后基本接近了理想值。
0.1		學習率較小，損失值會從單側下降，但下降速度非常慢，10步了還沒有到達理想狀態。

代碼位置

ch02, Level3, Level4, Level5

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 都是基於梯度下降的邏輯回歸與神經網絡有什么區別？（邏輯回歸參數更新和神經網絡反向傳播）神經網絡和反向傳播算法——反向傳播算法本質上是隨機梯度下降，鏈式求導法則而來的神經網絡反向傳播時的梯度到底怎么求？（轉）神經網絡反向傳播時的梯度計算技巧【tensorflow】神經網絡的一些基本概念(前向傳播、反向傳播、損失函數、梯度下降法、學習率)和設計過程神經網絡前向傳播與反向傳播《神經網絡的梯度推導與代碼驗證》之CNN（卷積神經網絡）的前向傳播和反向梯度推導《神經網絡的梯度推導與代碼驗證》之vanilla RNN的前向傳播和反向梯度推導《神經網絡的梯度推導與代碼驗證》之LSTM的前向傳播和反向梯度推導《神經網絡的梯度推導與代碼驗證》之FNN（DNN）的前向傳播和反向梯度推導

神經網絡系列之二 -- 反向傳播與梯度下降

第2章 神經網絡中的三個基本概念

2.0 通俗地理解三大概念

2.0.1 例一：猜數

2.0.2 例二：黑盒子

2.0.3 例三：打靶

2.0.4 黑盒子的真正玩兒法

2.0.5 總結

2.1 線性反向傳播

2.1.1 正向計算的實例

2.1.2 反向傳播求解w

求w的偏導

求w的具體變化值

【課堂練習】推導z對b的偏導數，結果在下一小節中使用

2.1.3 反向傳播求解b

求b的偏導

求b的具體變化值

【課題練習】請自己嘗試手動繼續迭代兩次，看看誤差的精度可以達到多少？

2.1.4 同時求解w和b的變化值

【課堂練習】用Python代碼實現以上雙變量的反向傳播計算過程

參考資料

代碼位置

2.2 非線性反向傳播

2.2.1 提出問題

正向過程

反向過程

2.2.2 數學解析解

2.2.3 梯度迭代解

代碼位置

2.3 梯度下降

2.3.1 從自然現象中理解梯度下降

2.3.2 梯度下降的數學理解

梯度下降的三要素

為什么說是“梯度下降”？

2.3.3 單變量函數的梯度下降

2.3.4 雙變量的梯度下降

2.3.5 學習率η的選擇

代碼位置

免責聲明！

第2章神經網絡中的三個基本概念