上周參加了XX大學研究生推免的面試,面試老爺問到了resnet主要解決了什么問題,我下意識的回答到解決了當網絡加深的時候會出現的vanishing/exploding gradients,然后面試老爺的表情就很豐富。這兩天推免名額到手了,翻了翻resnet的paper(Deep Residual Learning for Image Recognition Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun Microsoft Research),em....果然回答錯了。
論文地址:https://arxiv.org/pdf/1512.03385.pdf
先放一段原文:
大致就是隨着深度的加深可能產生的vanishing/exploding gradients由normalized initialization和intermediate normalization解決了(讀到的時候心理那叫一個刺激...)。殘差網絡主要解決了網絡退化的問題(隨着網絡的深度增加,准確度反而下降了)。留下不學無術的眼淚。。。。
針對這個問題,作者提出了一個Residual的結構:
即增加一個identity mapping(恆等映射),將原始所需要學的函數H(x)轉換成F(x)+x,而作者認為這兩種表達的效果相同,但是優化的難度卻並不相同,作者假設F(x)的優化 會比H(x)簡單的多。這一想法也是源於圖像處理中的殘差向量編碼,通過一個reformulation,將一個問題分解成多個尺度直接的殘差問題,能夠很好的起到優化訓練的效果。 這個Residual block通過shortcut connection實現,通過shortcut將這個block的輸入和輸出進行一個element-wise的加疊,這個簡單的加法並不會給網絡增加額外的參數和計算量,同時卻可以大大增加模型的訓練速度、提高訓練效果,並且當模型的層數加深時,這個簡單的結構能夠很好的解決退化問題。
面試的時候還提到了一個問題:殘差網絡的殘差怎么來的,現在看了看論文,應該是從文獻中的殘差表示入手。留下不學無術的眼淚......