resnet的理解-- 面試筆記


     上周參加了XX大學研究生推免的面試,面試老爺問到了resnet主要解決了什么問題,我下意識的回答到解決了當網絡加深的時候會出現的vanishing/exploding gradients,然后面試老爺的表情就很豐富。這兩天推免名額到手了,翻了翻resnet的paper(Deep Residual Learning for Image Recognition Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun Microsoft Research),em....果然回答錯了。

 論文地址:https://arxiv.org/pdf/1512.03385.pdf

先放一段原文:

 

  大致就是隨着深度的加深可能產生的vanishing/exploding gradients由normalized initialization和intermediate normalization解決了(讀到的時候心理那叫一個刺激...)。殘差網絡主要解決了網絡退化的問題(隨着網絡的深度增加,准確度反而下降了)。留下不學無術的眼淚。。。。

   針對這個問題,作者提出了一個Residual的結構:

 

即增加一個identity mapping(恆等映射),將原始所需要學的函數H(x)轉換成F(x)+x,而作者認為這兩種表達的效果相同,但是優化的難度卻並不相同,作者假設F(x)的優化 會比H(x)簡單的多。這一想法也是源於圖像處理中的殘差向量編碼,通過一個reformulation,將一個問題分解成多個尺度直接的殘差問題,能夠很好的起到優化訓練的效果。 這個Residual block通過shortcut connection實現,通過shortcut將這個block的輸入和輸出進行一個element-wise的加疊,這個簡單的加法並不會給網絡增加額外的參數和計算量,同時卻可以大大增加模型的訓練速度、提高訓練效果,並且當模型的層數加深時,這個簡單的結構能夠很好的解決退化問題。 

  面試的時候還提到了一個問題:殘差網絡的殘差怎么來的,現在看了看論文,應該是從文獻中的殘差表示入手。留下不學無術的眼淚......


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM