CSAR——Channel-wise and Spatial Feature Modulation Network for Single Image Super-Resolution

本文轉載自查看原文 2019-05-14 10:00 663 論文筆記

1. 摘要

CNN 中的特征包含着不同類型的信息，它們對圖像重建的貢獻也不一樣。然而，現在的大多數 CNN 模型卻缺少對不同信息的辨別能力，因此也就限制了模型的表示容量。

另一方面，隨着網絡的加深，來自前面層的長期信息很容易在后面的層被削弱甚至消失，這顯然不利於圖像的超分辨。

作者提出了一個通道和空間特征調制（CSFM）網絡，其中一系列特征調制記憶（FMM）模塊級聯在一起來將低分辨率特征轉化為高信息量的特征。而在每個 FMM 內部，則集成了許多通道和空間注意力殘差塊（CSAR）以及一個用來保留長期信息的門控融合節點（GF）。

2. 網絡結構

2.1. CSAR（Channel-wise and Spatial Attention Residual ）

進來一個特征 Hi，先經過卷積-ReLU-卷積得到特征 U，卷積核都為 3×3。

CA 單元包含全局空間池化-卷積-ReLU-卷積-Sigmoid，卷積核都為 1×1，第一層卷積通道數變為 C/r，第二層卷積通道數為 C。

SA 單元包含卷積-ReLU-卷積-Sigmoid，卷積核都為 1×1，第一層卷積通道數變為 C*i，第二層卷積通道數為 1。

得到通道和空間的兩個 mask 后，分別和特征 U 相乘，然后再將兩個結果拼接起來經過一個 1×1 的卷積將通道數變為 C，最后和 Hi 相加得到輸出特征 Ho。

在論文中，作者設置 r=16，i=2，CSAR 的一個 TensorFlow 實現如下所示。

def CSAR(input, reduction, increase):
    """
    @Channel-wise and Spatial Feature Modulation Network for Single Image Super-Resolution
    Channel-wise and spatial attention residual block
    """

    _, width, height, channel = input.get_shape()  # (B, W, H, C)

    u = tf.layers.conv2d(input, channel, 3, padding='same', activation=tf.nn.relu)  # (B, W, H, C)
    u = tf.layers.conv2d(u, channel, 3, padding='same')  # (B, W, H, C)

    # channel attention
    x = tf.reduce_mean(u, axis=(1, 2), keepdims=True)   # (B, 1, 1, C)
    x = tf.layers.conv2d(x, channel // reduction, 1, activation=tf.nn.relu)     # (B, 1, 1, C // r)
    x = tf.layers.conv2d(x, channel, 1, activation=tf.nn.sigmoid)   # (B, 1, 1, C)
    x = tf.multiply(u, x)   # (B, W, H, C)

    # spatial attention
    y = tf.layers.conv2d(u, channel * increase, 1, activation=tf.nn.relu)    # (B, W, H, C * i)
    y = tf.layers.conv2d(y, 1, 1, activation=tf.nn.sigmoid)     # (B, W, H, 1)
    y = tf.multiply(u, y)  # (B, W, H, C)

    z = tf.concat([x, y], -1)
    z = tf.layers.conv2d(z, channel, 1, activation=tf.nn.relu)  # (B, W, H, C)
    z = tf.add(input, z)

    return z