注意力機制下的軟閾值化:深度殘差收縮網絡


    顧名思義,深度殘差收縮網絡是在“殘差網絡”基礎上的一種改進算法,是由“殘差網絡”和“收縮”兩部分所組成的。其中,殘差網絡在2016年斬獲了ImageNet圖像識別競賽的冠軍,目前已經成為了深度學習領域的基礎網絡;收縮指的是軟閾值化,是許多信號降噪算法的關鍵步驟。在深度殘差收縮網絡中,軟閾值化所需要的閾值,實質上是借助注意力機制設置的。
    在本文中,我們首先對殘差網絡、軟閾值化和注意力機制的基礎知識進行了簡要的回顧,然后對深度殘差收縮網絡的動機、算法和應用展開解讀。

1. 基礎回顧
1.1 殘差網絡
    從本質上講,殘差網絡(又稱深度殘差網絡、深度殘差學習)是一種卷積神經網絡。相較於普通的卷積神經網絡,殘差網絡采用了跨層恆等連接,以減輕卷積神經網絡的訓練難度。殘差網絡的一種基本模塊如圖1所示。

1 殘差網絡的一種基本模塊

1.2 軟閾值化
    軟閾值化是許多信號降噪方法的核心步驟。它的用處是將絕對值低於某個閾值的特征置為零,將其他的特征也朝着零進行調整,也就是“收縮”。在這里,閾值是一個需要預先設置的參數,其取值大小對於降噪的結果有着直接的影響。軟閾值化的輸入與輸出之間的關系如圖2所示。

2 軟閾值化

    從圖2可以看出,軟閾值化是一種非線性變換,有着與ReLU激活函數非常相似的性質:梯度要么是0,要么是1。因此,軟閾值化也能夠作為神經網絡的激活函數。事實上,一些神經網絡已經將軟閾值化作為激活函數進行了使用。

1.3 注意力機制
    注意力機制就是將注意力集中於局部關鍵信息的機制,可以分為兩步:第一,通過掃描全局信息,發現局部有用信息;第二,增強有用信息並抑制冗余信息。
Squeeze-and-Excitation Network是一種非常經典的注意力機制下的深度學習方法。它可以通過一個小型的子網絡,自動學習得到一組權重,對特征圖的各個通道進行加權。其含義在於,某些特征通道是比較重要的,而另一些特征通道是信息冗余的;那么,我們就可以通過這種方式增強有用特征通道、削弱冗余特征通道。Squeeze-and-Excitation Network的一種基本模塊如下圖所示。

3 Squeeze-and-Excitation Network的一種基本模塊

    值得指出的是,通過這種方式,每個樣本都可以有自己獨特的一組權重,可以根據樣本自身的特點,進行獨特的特征通道加權調整。例如,樣本A的第一特征通道是重要的,第二特征通道是不重要的;而樣本B的第一特征通道是不重要的,第二特征通道是重要的;通過這種方式,樣本A可以有自己的一組權重,以加強第一特征通道,削弱第二特征通道;同樣地,樣本B可以有自己的一組權重,以削弱第一特征通道,加強第二特征通道。

2. 深度殘差收縮網絡理論
2.1 動機
    首先,現實世界中的數據,或多或少都含有一些冗余信息。那么我們就可以嘗試將軟閾值化嵌入殘差網絡中,以進行冗余信息的消除。
    其次,各個樣本中冗余信息含量經常是不同的。那么我們就可以借助注意力機制,根據各個樣本的情況,自適應地給各個樣本設置不同的閾值。

2.2 算法
    與殘差網絡和Squeeze-and-Excitation Network相似,深度殘差收縮網絡也是由許多基本模塊堆疊而成的。每個基本模塊都有一個子網絡,用於自動學習得到一組閾值,用於特征圖的軟閾值化。值得指出的是,通過這種方式,每個樣本都有着自己獨特的一組閾值。深度殘差收縮網絡的一種基本模塊如下圖所示。

4 深度殘差收縮網絡的一種基本模塊

    深度殘差收縮網絡的整體結構如下圖所示,是由輸入層、許多基本模塊以及最后的全連接輸出層等組成的。

5 深度殘差收縮網絡的整體結構

2.3 應用
    在原始論文中,深度殘差收縮網絡是應用於基於振動信號的旋轉機械故障診斷。但是從原理上來講,深度殘差收縮網絡面向的是數據集含有冗余信息的情況,而冗余信息是無處不在的。例如,在圖像識別的時候,圖像中總會包含一些與標簽無關的區域;在語音識別的時候,音頻中經常會含有各種形式的噪聲。因此,深度殘差收縮網絡,或者說這種“深度學習”+“軟閾值化”+“注意力機制”的思路,有着較為廣泛的研究前景。

參考文獻
[1] K. He, X. Zhang, S. Ren, et al. Deep residual learning for image recognition. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[2] K. He, X. Zhang, S. Ren, et al. Identity mappings in deep residual networks. European Conference on Computer Vision, 2016: 630-645.
[3] J. Hu, L. Shen, G. Sun. Squeeze-and-excitation networks. IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[4] D.L. Donoho. De-noising by soft-thresholding. IEEE Transactions on Information Theory, 1995, 41(3): 613-627.
[5] K. Isogawa K, T. Ida, T. Shiodera, et al. Deep shrinkage convolutional neural network for adaptive noise reduction. IEEE Signal Processing Letters, 2017, 25(2): 224-228.
[6] M. Zhao, S, Zhong, X. Fu, et al. Deep residual shrinkage networks for fault diagnosis. IEEE Transactions on Industrial Informatics, 2019, DOI: 10.1109/TII.2019.2943898


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM