本文主要是提出了一種級聯結構,采用三個網絡(WNet,TNet,ENet),每個網絡的輸入大小分別為2217,217,113。分別用於腦膠質瘤的不同部分進行分割,第一個網絡(WNet)在整個圖像上進行分割,分割出整個腫瘤,然后在整個腫瘤部分選取一個bounding box,作為TNet的輸入,分割出來tumor core,在tumor上選取box,然后作為Enet的輸入,最后分割出來enhanceing tumor core。需要注意的是,在訓練階段bounding box是由label生成,在預測階段,bounding box是由前一階段的分割結果構成。整體結構如下所示
WNet、TNet、ENet結構
網絡部分很好的利用了高層語義信息與低層語義信息,將高層與低層信息通過upsampling融合在一起,提高了分割精度
在訓練階段,若只使用一個方向(軸向,矢狀圖,冠狀圖),則精度低於將所有方向訓練時的精度
各向異性卷積神經網絡(參考https://zhuanlan.zhihu.com/p/49995173)
作者說,小的感受野可以提取局部特征,大的感受野可以提取全局特征,像FCN,U-Net,他們的感受野都比較大,可以直接抓取整張圖片的特征,作者想用一個大的3D感受野去提取更全局的3D特征,但是無奈大的3Dpatch更耗內存,所以在分別率和內存之間取了一個折中——anisotropic networks(各向異性網絡)
通俗的解釋就是,x,y,z分別是長,寬,高。3個網絡在x,y平面上取的感受野分別是,217×217,217×217,113×113,可以看出,在xy平面內的感受野還是相當大的,在訓練和測試時都大於相對應的輸入圖片大小。而在z軸方向,3個網絡的感受野都是9,在圖2中也可以看出來,藍色的卷積核都是3×3×1,即在z軸方向上是比較小的。網絡的卷積用了10個帶有各向異性卷積的殘差連接塊,還有一些擴張卷積,多尺度預測一類的。
1.各向異性和擴張的卷積
為了處理各向異性接受域,我們將大小為3×3×3的三維核分解為大小為3×3×1的片內(intra-slice)核和大小為1×1×3的片間(inter-slice)核。這些內核的卷積層都有Co輸出通道,每個通道后面都有批規一化層和激活層,如圖2中藍色和綠色塊所示。激活層采用(PReLU),其性能優於傳統ReLU。WNet和TNet使用20個層內卷積層和4個層間卷積層,兩個2D下采樣層。ENet使用與WNet相同的卷積層,但考慮到其較小的輸入大小,只使用一個下采樣層。為了避免圖像分辨率的大幅降低和分割細節的丟失,我們只使用了多達兩層的下采樣。在向下采樣層之后,我們對片內核使用擴張卷積來擴大片內的接受域。膨脹參數設置為1 ~ 3,如圖2所示。