斯坦福CS224n作業一
softmax
作業要求如下:
解析:題目要求我們證明\(softmax\)函數具有常數不變性。
解答:對於\(x+c\)的每一維來說,有如下等式成立:
\[softmax(x+c)_{i}=\frac{e^{x_{i}+c}}{\sum_{j}e^{x_{j}+c}}=\frac{e^{x_{i}}*e^{c}}{\sum_{j}(e^{x_{j}}*e^{c})}=\frac{e^{x_{i}}*e^{c}}{\sum_{j}(e^{x_{j}})*e^{c}}=\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}}=softmax(x)_{i} \]
則可知\(softmax(x)=softmax(x+c)\)成立
Neural Network Basics
求解sigmoid函數梯度
作業要求如下:
解析:本題要求我們計算\(\sigma(x)\)函數的梯度,並用\(\sigma(x)\)表示結果
解答:$$\frac{\partial{(\sigma(x)})}{\partial{x}}=\frac{\partial{(\frac{1}{1+e^{-x}}})}{\partial{x}}$$
設\(a=1+e^{-x}\),應用鏈式法則可以得到:
\[\frac{\partial{(\sigma(x)})}{\partial{x}}=\frac{\partial{(\frac{1}{a}})}{\partial{x}}=-(\frac{1}{a})^{2}*\frac{\partial{a}}{\partial{x}}=-(\frac{1}{a})^{2}*e^{-x}*(-1)=\frac{e^{-x}}{(1+e^{-x})^{2}} \]
用\(\sigma(x)\)可以表示為\(\sigma(x)-\sigma(x)^{2}\)
softmax + 交叉熵的梯度推導
作業要求如下:
解析:本題給定了實際值\(y\),預測值\(\hat{y}\),以及softmax的輸入向量\(\theta\),要求我們求解\(CE(y,\hat{y})\)對\(\theta\)的梯度
解答:
對於每個\(\theta_{i}\)來說,\(CE(y,\hat{y})\)對\(\theta_{i}\)的梯度如下所示:
可知,對於所有的i來說,\(CE(y,\hat{y})\)對\(\theta_{i}\)的梯度為\(\hat{y}-y\)。
三層神經網絡的梯度推導
作業要求如下:
解析:本題要求推導\(CE(y,\hat{y})\)對輸入\(x\)的梯度。
解答: