https://mp.weixin.qq.com/s/P4GL0KaO_KVtMpNw-Hu_3w
留給Transformer + U-Net 組合命名的縮寫不多了...
本來是打算繼續肝CVPR 2021的垂直方向大盤點工作,之前已經推送了Transformer、目標檢測、語義分割和OCR的盤點。但這幾天看到越來越多的視覺Transformer工作,特別是Transformer在醫學圖像上的應用。
實際上這波熱潮,從年初就開始了,比如非常具有代表性的:TransUNet(但似乎還沒被收錄)。詳見:
https://zhuanlan.zhihu.com/p/350271375
但那時很多Transformer+醫學圖像分割的工作並沒有"頂會的加持",Amusi 就沒有系統整理分享。當MICCAI 2021放榜后,發現Transformer真就一腳踹進了醫學圖像。
本文盤點了目前已公開的5篇MICCAI 2021上的Transformer+醫學圖像分割的工作,盡可能聚集於reviewer認可的工作,看相對好的優質工作,避免大家踩坑。
一、MedT:用於醫學圖像分割的Transformer
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation
代碼(已開源):
https://github.com/jeya-maria-jose/Medical-Transformer
論文:https://arxiv.org/abs/2102.10662
表現SOTA!並提出局部-全局訓練策略(LoGo),進一步提高性能,優於Res-UNet、U-Net++等網絡,代碼剛剛開源!作者單位:JHU, 新澤西州立大學
在過去的十年中,深度卷積神經網絡已被廣泛用於醫學圖像分割,並顯示出足夠的性能。但是,由於卷積架構中存在固有的inductive biases,因此他們對圖像中的遠程依存關系缺乏了解。最近提出的利用自注意力機制的基於Transformer的體系結構對遠程依賴項進行編碼,並學習高度表達的表示形式。
這促使我們探索基於Transformer的解決方案,並研究將基於Transformer的網絡體系結構用於醫學圖像分割任務的可行性。提出用於視覺應用的大多數現有的基於Transformer的網絡體系結構都需要大規模的數據集才能正確地進行訓練。但是,與用於視覺應用的數據集相比,對於醫學成像而言,數據樣本的數量相對較少,從而難以有效地訓練用於醫學應用的Transformer。
為此,我們提出了Gated Axial-Attention模型,通過在自注意力模塊中引入附加的控制機制來擴展現有體系結構。
此外,為了有效地在醫學圖像上訓練模型,我們提出了局部-全局訓練策略(LoGo),可以進一步提高性能。
具體來說,我們對整個圖像和patch進行操作以分別學習全局和局部特征。在三個不同的醫學圖像分割數據集上對提出的Medical Transformer(MedT)進行了評估,結果表明,與基於卷積和其他基於transformer的其他架構相比,它具有更好的性能。
二、MCTrans:生物醫學圖像分割的多復合Transformer
Multi-Compound Transformer for Accurate Biomedical Image Segmentation
作者單位:香港大學, 港中文, 商湯科技
代碼:https://github.com/JiYuanFeng/MCTrans
論文:https://arxiv.org/abs/2106.14385
MCTrans 可以很容易地插入到類似 UNet 的網絡中,表現SOTA!性能優於CENet、AttentionUNet等網絡,代碼即將開源!
最近的視覺Transformer(即用於圖像分類)學習不同patch tokens的non-local注意力交互。然而,現有技術錯過了學習不同像素的跨尺度依賴關系、不同標簽的語義對應關系以及特征表示和語義嵌入的一致性,這些對於生物醫學分割至關重要。
在本文中,我們通過提出一個統一的Transformer網絡來解決上述問題,稱為多復合Transformer(MCTrans),它將豐富的特征學習和語義結構挖掘整合到一個統一的框架中。
具體來說,MCTrans 將多尺度卷積特征嵌入為一個標記序列,並執行尺度內和尺度間的自注意力,而不是之前工作中的單尺度注意力。此外,還引入了可學習的代理嵌入,分別通過使用自注意力和交叉注意力來建模語義關系和特征增強。
MCTrans 可以很容易地插入到類似 UNet 的網絡中,並且在六個標准基准測試中比最先進的生物醫學圖像分割方法有了顯著的改進。例如,MCTrans 在 Pannuke、CVC-Clinic、CVC-Colon、Etis、Kavirs、ISIC2018 數據集上分別優於 UNet 3.64%、3.71%、4.34%、2.8%、1.88%、1.57%。
三、UTNet:用於醫學圖像分割的混合Transformer架構
UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
論文:https://arxiv.org/abs/2107.00781
表現SOTA!性能優於ResUNet等網絡,作者單位:羅格斯大學等
Transformer 架構已經在許多自然語言處理任務中取得成功。然而,它在醫學視覺中的應用在很大程度上仍未得到探索。
在這項研究中,我們提出了 UTNet,這是一種簡單而強大的混合 Transformer 架構,它將自注意力集成到卷積神經網絡中,以增強醫學圖像分割。
UTNet 在編碼器和解碼器中應用自注意力模塊,以最小的開銷捕獲不同規模的遠程依賴。為此,我們提出了一種有效的自注意力機制以及相對位置編碼,將自注意力操作的復雜性從 O(n2) 顯著降低到近似 O(n)。還提出了一種新的自注意力解碼器,以從編碼器中跳過的連接中恢復細粒度的細節。
我們的方法解決了 Transformer 需要大量數據來學習視覺歸納偏差的困境。我們的混合層設計允許在不需要預訓練的情況下將 Transformer 初始化為卷積網絡。我們已經在多標簽、multi-vendor 心臟磁共振成像隊列上評估了 UTNet。UTNet 展示了對最先進方法的卓越分割性能和魯棒性,有望在其他醫學圖像分割上很好地泛化。
四、PNS-Net:用於視頻息肉分割的漸進歸一化自注意力網絡
Progressively Normalized Self-Attention Network for Video Polyp Segmentation
論文:https://arxiv.org/abs/2105.08468
代碼:https://github.com/GewelsJI/PNS-Net
表現SOTA!性能優於PraNet、ResUNet等網絡,作者單位:IIAI, 武漢大學, SimulaMet
現有的視頻息肉分割 (VPS) 模型通常采用卷積神經網絡 (CNN) 來提取特征。然而,由於其有限的感受野,CNNs 不能充分利用連續視頻幀中的全局時間和空間信息,導致假陽性分割結果。
在本文中,我們提出了新穎的 PNS-Net(漸進歸一化自注意力網絡),它可以在單個 RTX 2080 GPU 上以實時速度(~140fps)有效地從息肉視頻中學習表示,無需后處理。
我們的 PNS-Net 完全基於基本的歸一化自注意力塊,完全配備了遞歸和 CNN。在具有挑戰性的 VPS 數據集上進行的實驗表明,所提出的 PNS-Net 實現了最先進的性能。我們還進行了大量實驗來研究通道拆分、軟注意力和漸進式學習策略的有效性。我們發現我們的 PNS-Net 在不同的設置下運行良好,使其成為 VPS 任務的一個有前途的解決方案。
五、MBT-Net:角膜內皮細胞分割的多分支混合Transformer網絡
A Multi-Branch Hybrid Transformer Network for Corneal Endothelial Cell Segmentation
作者單位:南方科技大學, 中科院, 悉尼科技大學, IIAI等
論文:https://arxiv.org/abs/2106.07557
表現SOTA!性能優於TransUNet、UNet++等網絡,已收錄於MICCAI 2021!
角膜內皮細胞(Corneal endothelial cell )分割在量化細胞密度、變異系數和六邊形等臨床指標方面起着至關重要的作用。然而,角膜內皮的不均勻反射和被攝體的震顫和運動導致圖像中的細胞邊緣模糊,難以分割,需要更多的細節和上下文信息來解決這個問題。由於局部卷積和連續下采樣的感受野有限,現有的深度學習分割方法不能充分利用全局上下文,遺漏了很多細節。
本文提出了一種基於Transformer和body-edgebranch的Multi-Branch混合Transformer網絡(MBT-Net)。
首先,我們使用卷積塊專注於局部紋理特征提取,並通過Transformer和殘差連接建立對空間、通道和層的遠程依賴關系。此外,我們使用 body-edge 分支來促進局部一致性並提供邊緣位置信息。
在自收集數據集 TM-EM3000 和公共 Alisarine 數據集上,與其他 State-Of-The-Art (SOTA) 方法相比,所提出的方法實現了改進。