神經網絡之全連接層詳解



Deduction

全連接結構中的符號定義如下圖:

FC Layer

Forward Propagation

 

 

Backward Propagation

Follow Chain Rule, define loss function , so we have:

Here we define ,下面分別介紹這兩個偏導項如何計算。

 

計算

Now we firstly get output layer . As an example, we take cross entropy as loss function, with SoftMax as output function.

 

繼續由有:

還是 Chain Rule, 這個chain rule決定了BP是個遞推過程。

 

So

的求解過程是是個從后往前的遞推過程。

 

計算

的求解比較簡單。
由於:

則有:

 

Caffe Practice

Alt text

Forward Propagation

bottom節點數, top節點數, batch size。則bottom矩陣為,top矩陣為,weight 矩陣, bias為, bias weight為。下圖給出了這幾個關鍵量在Caffe中的存在形式:

Alt text
數學形式為:

 

Backward Propagation

后向還是分兩部分算,一部分是計算; 一部分是計算bottom_diff = ,以作為下一層的top_diff, 這里實際上就是, 因此bottom_diff = 。下圖給出Caffe計算后向傳播時的幾個關鍵量。

Alt text

計算

 

則有下面的實現:

 

計算bottom_diff

 

即:
可以看出,其主要操作是GEMM和GEMV。


References

[1] http://www.jianshu.com/p/c69cd43c537a
[2] http://blog.csdn.net/walilk/article/details/50278697
[3] http://blog.sina.com.cn/s/blog_88d97475010164yn.html
[4] http://www.itnose.net/detail/6177501.html
[5] http://www.zhihu.com/question/38102762


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM