Deduction
全連接結構中的符號定義如下圖:
Forward Propagation
Backward Propagation
Follow Chain Rule, define loss function , so we have:
計算 
Now we firstly get output layer . As an example, we take cross entropy as loss function, with SoftMax as output function.
繼續由 推
有:
So

計算
的求解比較簡單。
由於:

Caffe Practice
Forward Propagation
bottom節點數, top節點數
, batch size
。則bottom矩陣為
,top矩陣為
,weight 矩陣
, bias為
, bias weight為
。下圖給出了這幾個關鍵量在Caffe中的存在形式:
數學形式為:
Backward Propagation
后向還是分兩部分算,一部分是計算; 一部分是計算bottom_diff =
,以作為下一層的top_diff, 這里
實際上就是
, 因此bottom_diff =
。下圖給出Caffe計算后向傳播時的幾個關鍵量。
計算
計算bottom_diff
References
[1] http://www.jianshu.com/p/c69cd43c537a
[2] http://blog.csdn.net/walilk/article/details/50278697
[3] http://blog.sina.com.cn/s/blog_88d97475010164yn.html
[4] http://www.itnose.net/detail/6177501.html
[5] http://www.zhihu.com/question/38102762