論文翻譯：LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks

本文轉載自查看原文 2019-04-16 16:41 866 論文閱讀/ 深度學習/ 3DCNN

引言

傳統的3D卷積神經網絡（CNN）計算成本高，內存密集，容易過度擬合，最重要的是，需要改進其特征學習能力。為了解決這些問題，我們提出了整流局部相位體積（ReLPV）模塊，它是標准3D卷積層的有效替代方案。所述ReLPV 塊提取相在3D局部鄰域（例如，\(3×3×3\)）輸入圖的每個位置以獲得特征圖。通過在每個位置的3D局部鄰域中的多個固定低頻點處計算3D短期傅里葉變換（STFT）來提取相位。然后，在通過激活函數之后，在不同頻率點處的這些特征圖被線性組合。所述ReLPV塊提供至少，顯著參數節約\(3^3\) 至\(13^3\)相對於標准三維卷積層倍與濾波器尺寸\(3×3×3\)至\(13\times 13\times 13\)分別。我們展示了ReLPV的特色學習功能塊明顯優於標准3D卷積層。此外，它在不同的3D數據表示中產生始終如一的更好結果。我們在體積ModelNet10和ModelNet40數據集實現國家的theart准確性，同時利用只有11％的電流了最先進的參數theart。我們還將UCF-101 split-1動作識別數據集的最新技術水平提高了5.68％（從頭開始訓練時），同時僅使用最先進技術的15％參數。項目網頁位於https://sites.google.com/view/lp-3dcnn/home。

1. 簡介

在過去的幾年中，2D CNN 領域的研究已經導致了許多計算機視覺任務的前所未有的進步，例如圖像分類，語義分割和圖像超分辨率。除了性能結果之外，2D CNN在其他互補領域也取得了很好的進展，例如網絡壓縮，二值化，量化，正則化等。不幸的是，與2D對手不同，3D CNN在問題上並沒有達到相同水平的性能跳躍。在他們的領域，例如，視頻分類和上述補充領域的進展。最近的作品如[ 45 ]和[ 11 ]，列出深度3D CNN建模和訓練中的一些基本障礙，例如（1）它們在計算上非常昂貴，（2）它們在內存使用和磁盤空間方面都會導致大型模型（3）由於大量參數，它們易於過度擬合，（4）並且需要改進它們的特征學習能力，這可能需要對其網絡架構或標准3D卷積層進行根本改變。盡管存在上述挑戰，但深度3D CNN的文獻中的當前趨勢是訓練計算昂貴，存儲器密集且非常深的網絡以便實現最先進的結果。
在這項工作中，我們通過提出3D CNN的基本構建模塊（3D卷積層）的替代方案來繞道這一趨勢，3D卷積層是3D CNN中高時空復雜性的主要來源。更確切地說，我們提出了整流局部相位體積（ReLPV）模塊，這是3D CNN中標准3D卷積層的有效替代方案。所述ReLPV塊包括局部相位模塊，所述的RELU激活函數和一組可訓練線性權重。局部相位模塊通過在局部\(n × n × n\)中計算3D短期傅立葉變換（STFT）（在多個低頻點處）來提取局部相位信息（例如，\(3×3×3\)）輸入特征圖的每個位置的鄰域/體積。然后，本地相模塊的輸出通過ReLU 激活功能，以便獲得固定低頻點處的本地相位信息的激活響應圖。最后，一組可訓練的線性權重計算這些激活的響應圖的加權組合。所述ReLPV塊提供顯著參數與節省計算和存儲積蓄沿。基於ReLPV 塊的 3D CNN具有低得多的模型復雜性並且不易過度擬合。
最重要的是，其功能學習功能明顯優於標准3D卷積層。我們在這項工作中的主要貢獻如下：

我們提出了ReLPV 模塊，它是標准3D卷積層的有效替代方案。所述ReLPV塊顯著降低可訓練參數的數量，與標准相比至少降低了\(3^3\)至\(13^3\)倍，三維卷積層與過濾器尺寸分別\(3×3×3\)至\(13×13×13\)。
我們展示了ReLPV模塊在不同的3D數據表示上實現了始終如一的更好結果。我們展示這對體積ModelNet10和ModelNet40數據集通過實現只用11％的電流了最先進的參數國家的theart准確性theart。此外，我們提供了時空圖像序列的結果。特別是，在 UCF-101分裂1動作識別數據集上，使用最先進的15％參數，將當前的最新技術水平提高了5.68％。
我們通過改變其各種超參數來提出所提出的ReLPV塊的詳細消融和性能研究。該分析將有利於將來設計基於ReLPV塊的3D CNN。

2. 相關工作

近年來，二維CNNs在大多數計算機視覺問題中取得了最新的研究成果。此外，它們在網絡壓縮、二值化、量化、正則化等互補領域也取得了顯著進展。因此，將這一成功擴展到三維CNNs領域的問題也就不足為奇了，如視頻分類、三維物體識別、MRI體積分割等。不幸的是，3Dcnn在計算上非常昂貴，並且需要很大的內存和磁盤空間。此外，由於涉及大量參數，它們很容易超擬合。因此，最近人們對更有效的3D CNNs變體產生了興趣。
受二維CNNs網絡二值化技術進步的啟發，如BinaryConnect、BinaryNet、XNORNet等，Ma等人在中引入了BVCNNs，在BVCNNs中，他們將一些用於從ModelNet數據集中識別體素化三維CAD模型的最先進的3D CNN模型進行了完全的二值化。與浮點基線相比，3D CNNs的二進制版本節省了大量的計算和內存需求。然而，這是以性能降低為代價的。此外，二值化網絡僅接受二值化輸入，限制了其在視頻分類等其他三維數據表示方面的應用。
另一種降低三維神經網絡模型復雜度的方法是用可分離卷積代替三維卷積。近年來，許多針對視頻分類任務而提出的三維CNN結構都在探索這種技術。可分卷積的概念是先在二維空間上卷積，然后在一維時間上卷積。這種分解在本質上類似於中使用的深度可分離卷積，只是這里的思想是將其應用於時間維度而不是特征維度。這一思想在最近的許多工作中得到了應用，包括R(2+1)D網絡、可分離的3D CNNs、偽3D網絡和因式時空CNNs。基於可分卷積思想的三維神經網絡在時空復雜度較低的情況下，在視頻分類任務上取得了與目前最先進的神經網絡相比較的競爭效果。

3. 方法

符號。我們用張量\(I∈R^{c\times d\times h\times w}\)表示三維CNN網絡中某一層輸出的feature map，其中\(h\)、\(w\)、\(d\)和\(c\)分別是feature map的高度、寬度、深度和通道數。
ReLPV塊架構。ReLPV塊是標准3D卷積層的四層替代表示。圖1說明了ReLPV塊的結構。

圖1: The ReLPV block architecture.

Layer 1。這一層是標准的三維卷積層，只有一個大小為\(1\times 1\times 1\)的過濾器。從上一層輸入一個大小為\(c\times d\times h\times w\)的feature map，並將其轉換為一個大小為\(1\times d\times h\times w\)的單通道feature map。這一層為第2層計算的3D STFT操作准備輸入。設\(f(x)\)為第1層的feature map輸出，大小為\(1\times d\times h\times w\)。這里，x是一個變量，表示feature map \(f(x)\)上的位置。

Layer 2。將局部相位成功地應用於圖像邊緣檢測和輪廓提取的特征提取中。相位表示不同空間頻率的局部相干性。圖像中的邊緣和骨架由它們的相干性來表達，在圖像理解中起着重要的作用。同樣的屬性也適用於3D數據表示。例如,視頻。在多維中提取局部相位的方法有很多。我們的方法靈感來自。第2層通過公式1計算f(x)在局部\(n\times n \times n\)鄰域\(N_x\)的每個位置處的三維短時傅里葉變換(STFT)，提取\(f(x)\)的局部相位譜。

\[F(v,x)=\sum^{}_{y \in N_x}{f(x-y)exp^{-j2 \pi v^Ty}} \tag{1} \]

這里，\(v \in R^3\)是一個頻率變量，\(j=\sqrt{-1}\)。使用向量符號[20]，我們可以重寫方程1，如方程2所示。

\[F(v,x)=w^T_v f_x \tag{2} \]

其中，\(w_v\)為頻率變量v處三維STFT的基向量，\(f_x\)為包含鄰域\(N_x\)所有位置的向量。注意，由於基函數的可分性，可以對\(f(x)\)中的所有位置使用簡單的一維卷積有效地計算出三維STFT。在這項工作中，我們考慮了13個最低的非零頻率變量，定義如下。所選頻率變量如圖2所示為紅點。

圖2:用於計算3DSTFT的頻率點。選擇的頻率點被標記為紅點。在綠點的另一個頻率點被忽略,因為它們是選定的復雜共軛。

使用低頻變量是因為它們通常包含大部分信息，因此它們具有比高頻分量更好的信噪比。

讓

\[W=[R\{w_{v_1},w_{v_2},...,w_{v_{13}}\},\zeta\{w_{v_1},w_{v_2},...,w_{v_{13}}\}]^T \tag{3} \]

這里W是一個\(26\times n^3\)的變換矩陣對應於13個頻率變量。\(R\{·\}\)和\(\zeta\{·\}\)分別返回復數的實部和虛部。因此，由式2和式3可知，13個頻率點\((v_1,v_2,…,v_{13})\)的三維STFT矢量形式如式4所示。

\[F_x=Wf_x \tag{4} \]

由於\(F_x\)是對輸入\(f(x)\)的所有位置\(x\)進行計算，得到的輸出特征圖大小為\(26×d×h×w\)。第2層的更詳細的數學公式載於A節。

Layer 3。將非線性應用於本地相位信息使網絡能夠學習復雜的表示。該層通過使用激活函數創建從第2層獲得的特征映射的激活響應圖。我們使用ReLU激活功能來提高效率和收斂速度。

Layer 4。這一層是標准的三維卷積層,它的大小為\(1\times 1\times 1\)的標准三維卷積層,從第3層得到一個大小\(26\times d\times h\times w\)的特征圖,輸出一個大小為\(f\times d\times h\times w\)的特征圖。請注意,第1層和第4層在3D CNN的訓練階段學習。

我們將使用符號\(ReLPV(n,f)\)作為\(ReLPV\)塊，其中\(n\)和\(f\)是其超參數。這里\(n\)表示來自層2的局部3D鄰域的大小，\(f\)是層4中使用的\(1×1×1\)濾波器的數量。
使用STFT和本地階段的重要性。 Hinman等人首次研究了多維空間中的STFT。在[15]中作為圖像編碼的有效工具。它有兩個重要的特性使它對我們的目的有用：（1）自然圖像通常由具有尖銳邊緣特征的物體組成。已經觀察到傅里葉相位信息准確地表示這些邊緣特征。由於3D空間中的STFT只是一個窗口傅里葉變換，因此適用相同的屬性。因此，本地相位能夠以與卷積濾波器相同的方式精確地捕獲局部特征。（2）STFT對輸入信號進行去相關。正則化是深度學習的關鍵，因為它允許訓練更復雜的模型，同時保持較低的過度擬合水平並實現更好的泛化。特征，表示和隱藏激活的去相關已成為深度神經網絡更好正則化研究的一個活躍領域，提出了各種新的正則化因子，如DeCov，去相關批量歸一化（DBN），結構化去相關約束（SDC）和OrthoReg。由於STFT對輸入表示進行去相關，並且由於可學習參數的數量減少，基於\(ReLPV\)塊的3D CNN不太容易過度擬合並且更好地推廣。
在\(ReLPV\)塊中向前向后傳播。用\(ReLPV\)塊代替標准的三維卷積層對三維\(CNN\)網絡進行端到端訓練是很簡單的。通過\(ReLPV\)塊的第1層、第3層和第4層向前和向后傳播的步驟是所有深度學習庫中的標准操作。在第2層中反向傳播類似於在沒有可學習參數(如加法、乘法等)的情況下通過層傳播梯度，因為它涉及到將固定基矩陣W應用於輸入。注意，在訓練期間，只有第1層和第4層中的\(1\times 1\times 1\)過濾器被更新，而矩陣W中的權重不受影響。
\(ReLPV\)塊參數分析。與具有相同濾波器大小/體積和輸入-輸出通道數量的標准三維卷積層相比，\(ReLPV\)塊使用的可訓練參數明顯較少。考慮一個具有c輸入和f輸出通道的標准3D卷積層。設\(n\times n\times n\)為濾波器的大小/體積。因此，標准三維卷積層中可訓練參數的總數為\(c\times n^3\times f\)。一個包含\(c\)輸入通道和f輸出通道的\(ReLPV\)塊由\(c\times 1+f\times 26\)個可訓練參數組成。因此，計算標准三維卷積層中可訓練參數個數與所提出的\(ReLPV\)塊的比值如下:

\[\frac{\#\ params.\ in\ 3D\ conv.\ layer}{\#\ params.\ in\ ReLPV\ block}= \frac{c \cdot n^3 \cdot f}{c \cdot 1 + f \cdot 26} \tag{5} \]

為簡便起見，我們假設\(f=c\)，即，輸入通道和輸出通道的數目相同。此外，在實際應用中，大多數深度三維CNNs \(f>=27\)。因此,讓\(f = 27\)。這就把上面的比例降低到\(n^3\)。因此，對於標准3D卷積層中大小為\(3 \times 3 \times 3\)的濾波器，\(ReLPV\)塊使用的可訓練參數要少27倍。因此，在學習\((3 \times 3 \times 3,5 \times 5 \times 5,7 \times 7 \times 7,9 \times 9 \times 9,11 \times 11 \times 11,13 \times 13 \times 13)\)三維卷積濾波器時，\(ReLPV\)塊在數值上至少保存了\((27\ast，125\ast，343\ast，729\ast，1331\ast，2197\ast)\)個參數。

4 實驗

在本節中，我們展示了與標准的三維卷積層相比，所提出的\(ReLPV\)塊在不同的三維數據表示上產生了一致的更好的結果。我們在體素化的三維CAD模型和時空圖像序列上演示了這一點。

4.1 三維CAD模型數據集的實驗與結果

ModelNet是一個大型的三維CAD模型(形狀)庫。具有4,899個形狀的ModelNet10 (train: 3991, test: 908)和具有12,311個形狀的ModelNet40 (train: 9843, test: 2468)通常用作基准數據集，分別包含10和40個類別。每個模型都對齊到一個標准幀，然后圍繞z軸以12和24個均勻采樣的方向旋轉(\(Az\times 12\)和\(Az\times 24\)增強)。然后將這些旋轉的模型體素化為\(32\times 32\times 32\)的網格。我們使用了的體素化版本。這里的任務是將給定的體素化三維模型划分為相應的類。

4.1.1 ModelNet:與基線的比較

Baselines。我們首先在基線網絡VoxNet、VoxNetPlus和LightNet中，將標准的三維卷積層替換為建議的ReLPV塊(帶有跳過連接)，並分別將這些新網絡稱為LP-VoxNet、LP-VoxNetPlus和LP-LightNet。這里LP代表局部相位。用ReLPV塊直接替換標准的3D卷積層。例如，VoxNet網絡具有如下架構:conv3D(5,32,2)-conv3D(3,32,1)- mp (2)-FC(128)- FC(K)。這里，conv3D(n,f,s)是標准的三維卷積層，帶有f個大小為nnn的濾波器，每個濾波器都使用stride s。MP表示最大池化。FC代表全連接層。K是類的數量。VoxNet的等效局部相位版本是:ReLPV(5,32,2)-ReLPV(3,32,1)-MP(2)-FC(128)-FC(K)。在前面關於ReLPV塊架構的討論中，我們只關注重要的超參數，而沒有討論標准3D conv層中常用的其他超參數，比如stride信息。這些信息可以很容易地集成到ReLPV體系結構中。在准備LP-VoxNetPlus和LP-LightNet網絡時也遵循類似的步驟。
訓練。我們使用SGD作為優化器訓練這些新網絡，動量為0.9，分類交叉熵為損失。在培訓期間，我們從學習率為0.008開始，如果驗證損失穩定，我們將學習率降低2倍。對於LP-VoxNet和LP-VoxNetPlus網絡，在[2625]之后，我們首先在ModelNet40上訓練它們，然后在ModelNet10上進行微調。在LPLightNet網絡上執行相反的操作，就像在中一樣。在[262550]之后，所有網絡都針對每個實例圍繞z軸的12個均勻采樣旋轉(\(Az\times 12\)增強)進行訓練。測試數據未做數據擴充。

結果。表1列出了新網絡與其相應基線的比較。我們還將新網絡與基線的二值化版本進行比較（如第2節所述）。本地階段版本明顯優於ModelNet10和ModelNet40數據集上的相應基線及其二值化版本。

表1:基線網絡與本地階段和二進制版本的比較。本地階段版本的性能優於基線及其二進制版本。

4.1.2 ModelNet：與最先進的技術進行比較

網絡體系結構。我們遵循了[2]的Voxception-ResNet (VRN)體系結構的思想，該體系結構采用簡單的inception風格的體系結構和resnet風格的跳過連接。這種設計背后的直覺是，要讓信息在網絡中流動，有盡可能多的可能路徑。對於輸入層之后的第一個非下采樣塊（圖3a），我們連接兩個具有不同局部相位體積大小（\(3 \times 3 \times 3\)和\(5 \times 5 \times 5\)）的ReLPV塊的相同數量（128）的特征圖。對於其他非下采樣塊，我們使用額外的\(1 \times 1 \times 1\)卷積層擴充上述結構，該卷輸出與ReLPV塊相同數量（128）的特征圖，並將其與其他特征圖連接，如圖3b所示。該架構允許網絡在對前一層中的特征圖的加權平均（即，通過對\(1 \times 1 \times 1\)卷積進行大量加權）或者關注本地相位信息（即，通過對ReLPV塊進行大量加權）之間進行選擇。與此同時，如圖3b所示，添加跳過連接，以使梯度更平滑地流向先前的層。對於下采樣，我們使用具有池大小2和步幅2的平均池。我們的最終模型在圖3c中示出，具有五個非下采樣塊，接着是兩個完全連接的層，每個具有512的大小，並且最終的softmax層用於分類。所有非下采樣層（在批量標准化之后）和完全連接的層之后是ReLU激活功能。在最終的非下采樣層之后使用層conv3D（1, 256）以減少完全連接的層中的參數的數量。

圖3:實驗和與最新技術的比較。LP-3DCNN網絡構建模塊及架構。

訓練和測試。我們網絡的輸入是ModelNet數據集中大小為\(32 \times 32 \times 32\)的體素。在[2]之后，我們將二進制體素范圍從{0,1}更改為{-1,5}，以鼓勵網絡更多地關注正數條目。使用SGD作為優化器訓練網絡，動量為0.9，分類交叉熵為損失。在培訓期間，我們從學習率0.008開始，如果驗證損失穩定，則將其減少5倍。使用正交初始化初始化所有權重。首先在\(Az \times 12\)增強數據上訓練網絡，然后以低學習速率對\(Az \times 24\)增強數據進行微調。沒有對測試數據進行數據擴充。除了旋轉之外，通過在每個訓練示例中添加噪聲，隨機平移和水平翻轉來增強數據，如[26,2]中所做的那樣。
結果。表2將我們的結果與使用體素化/體積ModelNet數據集作為輸入的其他方法進行了比較。為了進行公平的比較，我們只考慮這項工作中的體積網絡框架。我們不包括多視圖網絡或基於點雲的網絡。在單一網絡框架中，我們提出的網絡優於ModelNet10和ModelNet40數據集上的所有先前網絡。此外，它只使用了200萬個參數，而目前最先進的VRN網絡使用了1800萬個參數。在集成框架中，VRN在ModelNet10和ModelNet40數據集上都實現了最佳性能。然而，它擁有最復雜的網絡架構，多達45層，1.08億個參數，需要近6天的時間來訓練。在集成框架中，我們的網絡優於FusionNet，同時使用的參數減少了近59倍，數據增量顯着減少。

表2：ModelNet數據集的性能結果。 Az代表方位旋轉，El代表仰角旋轉。 “ - ”表示沒有為論文中的項目提供信息。Vol代表體積。Mul代表多視點。

4.2 時空圖像序列的實驗和結果

數據集。我們使用UCF-101 split-1動作識別數據集[34]。該數據集在[37,38,8]中被用作性能研究的基准數據集，用於搜索用於動作識別任務的3D CNN網絡架構和超參數。
基線。我們使用[37]提出的實驗性3D CNN網絡將動作識別作為基線，這是C3D網絡的較小版本[37]。為簡單起見，我們將此網絡稱為迷你C3D網絡或mC3D。具有表示為\(mC3D_n\)的濾波器大小\(n \times n \times n\)的mC3D網絡具有以下架構：conv3D(n, 64)-MP(2)-conv3D(n, 128)-MP(2)-conv3D(n, 256)-MP(2)-conv3D(N, 256)-MP(2)-conv3D(N, 256)-MP(2)-FC(2048)-FC(2048)-FC(101)。每個3D卷積和完全連接的層之后是ReLU激活功能。所有卷積層都應用適當的填充和步幅1，使得張量的大小從這些層的輸入到輸出沒有變化。在[37]之后，網絡的輸入是尺寸為\(3 \times 16 \times 112 \times 112\)的視頻。
上述網絡的等效局部相位版本，記作\(LP-mC3Dn\)，用ReLPV塊替換標准的三維卷積層，如4.1.1所示。這里，n表示計算STFT的局部三維鄰域的大小。
訓練。在[37]之后，我們使用SGD作為Nesterov動量的優化器，其值為0.9，並且分類的交叉熵為損失。我們訓練網絡16個時期，學習率為0.003，每4個時期后減少10倍。請注意，所有網絡都是從頭開始訓練的。不使用諸如幀轉換，旋轉或縮放之類的數據擴充。我們重新訓練了所有基線網絡（n = 3; 5; 7）。結果發現與[37]中的圖2一致。
結果。諸如[37,22]等早期作品表明，在UCF-101 split-1數據集上從頭開始訓練相對較淺的3D CNN可實現41-44％的性能。最近的作品如[38,8]使用深度3D殘差ConvNet架構來獲得更好的結果。表3報告了我們在UCF-101 split-1數據集上的結果。我們使用五個ReLPV塊，將現有技術提高了5.68％。與3D STC-ResNet 101網絡相比，我們的網絡使用了1300萬個參數[8]，該網絡建立在3D ResNet 101網絡的頂層，使用了超過8600萬個參數。此外，具有不同局部相位體積的所有本地相位版本明顯優於相應的基線網絡。

表3:UCF-101 split-1動作識別數據集的性能結果。基於ReLPV塊的三維CNNs與相應基線及其他先進網絡的比較。所有的網絡都是從零開始訓練的。

5. 討論與分析

在本節中，我們詳細介紹了RELPV塊的燒蝕和性能研究。此外，我們還討論了RELPV塊相對於標准三維卷積層所具有的一些統計優勢。

5.1 ReLPV塊的時空復雜度

模型的尺寸。表3顯示，與相應的基線相比，基於ReLPV塊的三維CNNs使用更少的參數，占用更少的磁盤空間。此外，隨着局部相體積(同時保持其他超參數不變)從3增加到9，基於ReLPV塊的網絡中可訓練參數的數量或模型大小沒有變化。與此相反，隨着濾波器尺寸的增大，基線網絡的參數和模型尺寸顯著增加。我們相信，在資源受限的環境下，ReLPV塊的這一特性將為三維CNNs帶來巨大的好處。
計算成本。我們在第3節中討論了由於基函數的可分性，可以通過對每個維使用簡單的一維卷積有效地計算STFT。這種使用可分卷積計算三維STFT的技術節省了巨大的計算成本，並且在第2節中討論了3D CNNs中最近的研究熱點。表3根據模型的浮點運算數(FLOP)報告了計算成本。與相應基線相比，基於ReLPV塊的三維CNN的觸發器值更小。此外，它們隨局部相體積的增加變化很小。然而，對於基線網絡，隨着過濾器大小從3增加到9，觸發器值增加了近8倍。

5.2 ReLPV塊的統計優勢

如前所述，訓練深3D CNN的主要挑戰之一是避免過度擬合。 Hara等人最近的一項研究。在[11]中表明，即使是相對較淺的3D CNN，如3D ResNet-18，也會在動作識別數據集（如UCF-101 [34]和HMDB-51 [24]）上顯着過度擬合。這部分是由於3D CNN中與2D對應物相比的大量可訓練參數，部分原因是大規模3D數據集不可用[3811]。這些是深度3D CNN訓練的主要瓶頸。為了抑制過度擬合，已經引入了各種訓練方法，例如數據增強，訓練淺網絡和新型正則化器，例如Dropout [35]，DropConnect [40]和Maxout [10]。雖然已經提出諸如[403510]的正則化器來規范網絡的完全連接的層，但是諸如[41935]的最近的工作表明，使網絡的卷積層正規化同樣重要。我們的ReLPV模塊用於代替深3D CNN中的標准3D卷積層，由於其使用明顯較少的可訓練參數以及由於STFT的去相關特性而自然地使網絡正規化（參見第3節）。圖4報告了我們對過度擬合實驗的結果。與基線\(mC3D_3\)網絡相比，\(LP-mC3D_3\)網絡明顯更容易配置並且明顯更好地推廣。

圖4:UCF-101 Split-1數據集上的過度擬合結果。與基線\(mc3d_3\)網絡相比，\(lp-mc3d_3\)網絡的過擬合度更小，通用性更好。

5.3 Exploring the Local Phase Volume of the ReLPV block

如前所述，ReLPV塊采用兩個超參數作為輸入，其中一個是輸入特征映射的每個位置計算STFT（並且提取局部相位）的局部體積的大小。在本節中，我們將探討這個超參數。我們嘗試了不同大小的局部體積，特別是\(3 \times 3 \times 3\)到\(9 \times 9 \times 9\)。我們發現ReLPV塊的性能隨着STFT體積的增加而降低。圖5顯示了UCF-101測試分裂-1數據集上\(LP-mC3Dn\)網絡的剪輯精度，其中各種STFT體積在16個時期內從\(3 \times 3 \times 3\)到\(9 \times 9 \times 9\)不等。 STFT卷為\(3 \times 3 \times 3\)的\(LP-mC3D_3\)網絡表現最佳，而\(LP-mC3D9\)網絡表現最差。注意，在[37]中對標准3D卷積層進行了類似的研究，其中發現在所有層中具有\(3 \times 3 \times 3\)卷積核的3D CNN表現最佳。

圖5:ReLPV塊STFT卷搜索。STFT體積為\(3\times 3\times3\)的\(LP-mC3D_3\)網絡性能最好。

5.4 研究由ReLPV塊輸出的特征映射的數量

在本節中，我們將探索另一個超參數，即ReLPV塊輸出的特征映射的數量。簡單來說，我們探索了在ReLPV塊的第4層中改變\(1 \times 1 \times 1\)濾波器數量的效果(參見第3節)。為此，我們使用\(LP-mC3Dn\)網絡的修改版本，並試驗不同的ReLPV塊超參數對(n, f)。設\(LP-mC3D_{(n, f)}\)為我們的實驗網絡，具有以下架構：輸入層-\(ReLPV(n, f)\)-\(MP(2)\)-\(ReLPV(n, f)\)-\(MP(2)\)-\(ReLPV(n, f) )\)-\(MP(2)\)-\(ReLPV(n, f)\)-\(MP(2)\)-\(ReLPV(n, f)\)-\(conv3D(1 \times 1 \times 1, 256)\)-\(MP(2)\)-\(FC(2048)\)-\(FC(2048)\)-\(FC(101)\)。在最后一個\(ReLPV\)塊之后使用層\(Conv3D(1 \times 1 \times 1, 256)\)，以便完全連接層中的參數數量不會在不同網絡之間變化。表4顯示了我們在UCF-101 split-1測試集上的實驗結果。我們觀察到，對於局部STFT體積的固定值(超參數n)，性能隨着\(1 \times 1 \times 1\)濾波器(超參數f)的數量的增加而提高。另一個重要的觀察是模型大小和可訓練參數的數量隨着超參數f的值的增加而變化非常小。

表4:研究ReLPV塊輸出的feature map的數量。性能隨着f值的增加而提高。

5.5 基於ReLPV塊的混合3D CNN模型

在本節中，我們將探討在單個3D CNN網絡中使用ReLPV塊和標准3D卷積層的性能影響。我們稱這種網絡為混合3D CNN。我們嘗試了兩種類型的變體。在第一個變體中，我們用ReLPV塊替換傳統3D CNN網絡（基線\(mC3D_3\)）的前幾個層（頂層）（在輸入層之后），使得由ReLPV塊學習的特征圖輸入到后面的標准3D卷積層。。在第二變型中，后幾層（底層）被ReLPV塊替換，使得由標准3D卷積層學習的特征圖被輸入到后面的ReLPV塊。我們使用符號\(mC3D_3\)（\(B_l = T_l\)）來表示\(mC3D_3\)的l個底部/頂部連續3D conv層被ReLPV塊替換。表5報告了我們的實驗結果。我們觀察到，用傳統3D CNN網絡頂部的ReLPV塊替換標准3D卷積層可以改善其性能，而在底層添加ReLPV塊時會發生相反的情況。然而，混合3D CNN的性能並不優於\(LP-mC3D_3\)網絡，其中所有層都被ReLPV塊替換（表3）。

表5:混合3D CNN架構的結果。在UCF-101 split-1測試集上的性能結果。

6. 結論

為了降低傳統三維神經網絡的高時空復雜度和模型復雜度，本文提出了一種替代標准三維卷積層的有效方法——ReLPV塊。在傳統的三維神經網絡中，使用ReLPV塊代替標准的三維卷積層，顯著提高了基線結構的性能。此外，它們在不同的3D數據表示之間產生一致的更好的結果。我們提出的基於ReLPV塊的三維CNN結構在ModelNet和UCF-101 split-1動作識別數據集上取得了最先進的結果。我們計划將ReLPV block應用到3D CNN架構中，用於其他3D數據表示和3D MRI分割等任務。

A. 第二層詳解

設\(f(x)\)為\(ReLPV\)塊第1層輸出的大小為\(1\times d\times h\times w\)的單通道feature map。其中\(h、w、d\)分別表示feature map的高度、寬度和深度。為了簡單起見，我們將刪除通道維數，並將\(f(x)\)的大小重寫為\(d\times h\times w\)。這里，\(x<Z^3\)是\(f(x)\)中元素的三維坐標。
\(f(x)\)中的每一個\(x\)都有一個\(n\times n\times n\)的三維鄰域，用\(N_x\)表示，如式6所示。我們在原稿中提供了詳細的實驗分析，研究了不同\(n\)對用於視頻分類任務的三維CNNs中ReLPV塊性能的影響。

\[N_x=\{ y \in Z^3; ||(x-y)|| \infty \leq r;n=2r+1;r \in Z_+ \} \tag{6} \]

對於所有位置\(x = \{ x1,x2,…,x_{d·h·w} \}\)的特征圖\(f(x)\)，我們使用局部3D社區,\(f(x - y)\)，\(\forall y \in N_x\)以在方程7中定義的短期傅里葉變換(STFT)推導出局部頻域表示。

\[F(v,x) = \sum^{}_{y_i \in N_x}f(x-y_i)exp^{-j2\pi v^T y_i} \tag{7} \]

這里\(i = 1,...,n^3\)，\(v<R^3\)是一個3D頻率變量，\(j = \sqrt{-1}\)使用向量符號[20]，我們可以重寫方程7，如方程8所示：

\[F(v,x)=W^T_v f_x \tag{8} \]

這里\(w_v\)是一個線性變換的復值基函數(在頻率變量\(v\)處)，定義如式9所示。

\[W^T_v=[exp^{-j2\pi v^T y_1},exp^{-j2\pi v^T y_2},...,exp^{-j2\pi v^T y_3}] \tag{9} \]

\(f_x\)是一個包含鄰域\(N_x\)中所有元素的向量，定義如式10所示。

\[f_x=[f(x-y_1),f(x-y_2),...,f(x-y_{n^3})]^T \tag{10} \]

在我們的工作中，我們考慮了13個最低的非零頻率變量\(v_1,v_2…v_{13}\)。使用低頻變量是因為它們通常包含大部分信息，因此它們比高頻分量[14]具有更好的信噪比(見B節)。由式8定義上述頻率變量的局部頻域表示如式11所示。

\[F_x=[F(v_1,x),F(v_2,x),...,F(v_{13},x)]^T \tag{11} \]

在每個位置\(x\)，將每個分量的實部和虛部分離后，得到一個向量，如式12所示。

\[F_x=[R\{F(v_1,x)\},\zeta \{F(v_1,x)\},R\{F(v_2,x)\},\zeta \{F(v_2,x)\},...,R\{F(v_{13},x)\},\zeta \{F(v_{13},x)\}]^T \tag{12} \]

這里\(R\{\cdot \}\)和\(\zeta\{\cdot \}\)分別返回復數的實部和虛部。對應的\(26\times n^3\)變換矩陣如式13所示。

\[W=[R\{W_{v_1}\},\zeta\{w_{v_1}\},...,R\{W_{v_{13}}\},\zeta\{w_{v_{13}}\}]^T \tag{13} \]

由式8和式13可知，所有13個頻率點例如\(v_1,v_2,...,v_{13}\)的STFT矢量形式可以寫成如式14所示。

\[F_x=Wf_x \tag{14} \]

由於\(F_x\)是對輸入\(f(x)\)的所有位置\(x\)進行計算，得到的輸出feature map大小為\(26\times d \times h \times w\)，然后將該feature map作為輸入傳遞給\(ReLPV\) block的Layer 3。

B. STFT的去相關性質及低頻變量選擇的原因

正如在原稿中提到的，短時傅里葉變換(STFT)的一些重要特性是它能夠去關聯輸入信號並壓縮信號中包含的能量(信息)。這些性質是STFT固有的，因為它屬於正交變換家族，如K-L變換、Walsh-Hadamard變換(WHT)和離散余弦變換(DCT)。上述所有正交變換都具有以下共同的性質。

正交變換具有去相關輸入信號[41]的趨勢。例如，考慮一個包含溫度作為時間函數的信號。現在，給定信號當前樣本的值，可以有合理的信心預測其下一個樣本的值與當前樣本接近，即，兩個連續時間樣本高度相關。另一方面，經過正交變換(如傅里葉變換)后，知道某個頻率分量的大小，就對下一個頻率分量的大小(或能量)幾乎沒有概念，即，與變換前的時間樣本相比，這兩個分量的相關性要小得多。同樣的特性也適用於多個維度的信號，比如圖像和視頻。在圖像和視頻中，由於STFT對圖像和視頻的相關系數不敏感，導致去相關。
正交變換傾向於將信號中包含的能量(信息)壓縮成少量的信號分量。例如，傅里葉變換后，大部分能量(信息)將集中在相對較少的低頻分量上。大多數高頻分量攜帶的能量很少。此外，低頻分量比高頻分量具有更好的信噪比。正因為如此，我們在計算STFT時選擇了低頻變量。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。