關於SE-Net有些很奇妙的點:
1、首先,所謂的SE module加在了BN層后面,這樣的話,SE首先應該是對於BN層輸出的feature map求取global average pooling,一個樣本的一個channel做一次pooling,注意這個地方的pooling輸出值不是bn_weight * 0 + bn_bias,因為對於BN層而言,是在整個Batch里面對應channel求取的 均值,而不是一個樣本一個channel求取的均值,所以一個樣本一個channel的均值未必為0。