1.2 神經網絡的反向求導
在上一節中, 我們大致對神經網絡的梯度更新有了了解,其中最核心的部分就是求出損失函數對權重 𝑤𝑙𝑖𝑗wijl 的導數。由於網上大多數資料都是生搬硬套,因此我們以計算 𝑊1W1 的導數為例,對整個反向求導過程進行細致的剖析。如下圖所示:
其中,𝑤𝑙𝑗𝑘wjkl 表示從第 𝑙l 層的第 𝑗j 個節點到第 𝑙+1l+1 層中的第 𝑘k 個節點的權重,根據前向傳播的計算我們可以得到:
𝑦𝑜𝑢𝑡∼(𝑤311𝑤211+𝑤321𝑤212)𝑤111𝑥1,∂𝑦𝑜𝑢𝑡∂𝑤111=(𝑤311𝑤211+𝑤321𝑤212)𝑥1;𝑦𝑜𝑢𝑡∼(𝑤311𝑤211+𝑤321𝑤212)𝑤121𝑥2,∂𝑦𝑜𝑢𝑡∂𝑤121=(𝑤311𝑤211+𝑤321𝑤212)𝑥2𝑦𝑜𝑢𝑡∼(𝑤311𝑤221+𝑤321𝑤222)𝑤112