論文地址:使用門控卷積循環網絡學習復數譜映射以增強單耳語音
代碼地址:https://github.com/JupiterEthan/GCRN-complex
作者主頁:https://jupiterethan.github.io/
引用格式:Tan K, Wang D L. Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 28: 380-390.
摘要
相位對於語音的感知質量很重要。 但是由於其中缺乏頻譜時間結構,通過監督學習直接估計相位譜似乎很難。復數譜映射的目的在於從噪聲語音中提取出純凈語音的實譜圖和虛譜圖,同時增強語音的幅度響應和相位響應。在多任務學習的啟發下,我們提出了一種用於復數譜映射的門控卷積循環網絡(GCRN),它可作為單耳語音增強的因果系統。我們的實驗結果表明,提出的GCRN大大優於現有的卷積神經網絡(CNN)在復數譜映射方面的客觀語音可理解性和質量。此外,與幅度譜映射和復數比率掩碼相比,該方法產生了顯著更高的STOI和PESQ。我們還發現,復數譜映射與提出的GCRN提供了一個有效的相位估計。
關鍵詞:復數譜映射、門控卷積遞歸網絡、相位估計、單聲道語音增強。
1 引言
在日常聆聽環境中,語音信號會被背景噪音干擾。這種失真嚴重地降低了 語音的可懂度和質量,並使許多與語音有關的任務,如自動語音識別,變得更加復雜。許多與語音有關的任務,如自動語音識別 和說話人的識別更加困難。語音增強 的目的是去除或減弱語音信號中的背景噪音 信號。如果語音信號是由低信噪比的單個麥克風采集的,那么它從根本上來說是具有挑戰性的。如果語音信號是由單一的麥克風在低信噪比的情況下捕獲的 (SNRs)。本研究的重點是單聲道(單通道)語音增強。
在過去的幾十年里,語音處理界對單聲道語音增強進行了廣泛的研究。受計算聽覺場景分析(CASA)中時頻(T-F)mask概念的啟發,近年來,語音增強被表述為有監督的學習[36]。對於 監督下的語音增強,適當選擇訓練目標是很重要的[38]。對於有監督的語音增強,正確選擇訓練目標是非常重要的。一方面,明確的訓練目標可以顯著提高語音清晰度和語音質量。另一方面,培訓目標應服從監督學習。在T-F領域已經發展了許多訓練目標,它們主要分為兩類。一組是基於掩碼的目標,如理想比例掩碼(IRM)[38],它定義干凈語音和噪聲語音之間的時頻關系。另一種是基於映射的目標,如對數功率譜(LPS)[44]和目標幅度譜(TMS)[20],[12],它們代表干凈語音的頻譜特征。
這些訓練目標大多是針對噪聲語音的幅度譜進行操作的,它是由短時傅里葉變換(STFT)計算出來的。因此,典型的語音增強系統只增強幅度譜,並簡單地使用噪聲相位譜來重新合成增強的時域波形。不增強相位譜的原因有兩個方面。首先,人們發現在相位譜中不存在明確的結構,這使得直接估計純凈語音的相位譜變得難以實現[43]。 其次,人們認為相位增強對語音增強並不重要[37]。然而,Paliwal等人[23]最近的一項研究表明,准確的相位估計可以大大改善客觀和主觀的語音質量,特別是當相位譜計算的分析窗口被仔細選擇時。隨后,各種相位增強算法也被開發出來用於語音分離。Mowlaee等人[21]通過最小化平均平方誤差(MSE)來估計混合物中兩個來源的相位譜。Krawczyk和Gerkmann[17]對有聲音的語音幀進行相位增強,而對無聲音的幀不作改動。Kulmer等人[18]通過對瞬時噪聲相位譜進行相位分解,然后進行時間平滑來估計純凈語音相位。 通過這些相位增強方法,可以實現客觀的語音質量改善。另外,相位信息也可以被納入T-F掩碼中。Wang和Wang[39]訓練了一個深度神經網絡(DNN),通過反傅里葉變換層,利用噪聲相位直接重建時域增強信號。結果表明,語音合成和掩碼估計的聯合訓練提高了感知質量,同時保持了客觀的可懂度。 另一種方法是相位敏感掩碼(PSM)[5],它結合了純凈語音和噪聲語音之間的相位差。實驗結果表明,PSM估計比只增強幅度譜產生更高的信噪比(SDR)。
Williamson等人[43]觀察到,雖然相位頻譜缺乏譜時結構,但純凈語音頻譜的實部和虛部都表現出清晰的結構,因此適合於監督學習。因此,他們設計了復雜理想比值掩碼(cIRM),它可以從噪聲語音中重建純凈語音。在他們的實驗中,采用了一個DNN來聯合估計實譜和虛譜。與[21]、[17]和[18]中的算法不同,cIRM估計可以增強噪聲語音的幅值和相位譜。結果表明,復雜比率掩碼(cRM)比IRM估計產生更好的感知質量,同時在客觀可懂度上取得輕微或沒有改善。隨后,Fu等人[6]采用卷積神經網絡(CNN)從噪聲頻譜中估計出純凈實譜和虛譜。然后,估計的實譜和虛譜被用來重建時域的波形。他們的實驗結果表明,與DNN相比,CNN使短時客觀可懂度(STOI)提高了3.1%[29],使語音質量的感性評價(PESQ)[28]提高了0.12。此外,他們還訓練了一個DNN,以從噪聲的LPS特征映射到純凈特征。他們的實驗結果表明,使用DNN的復數譜映射比使用相同DNN的LPS頻譜映射產生了2.4%的STOI改善和0.21的PESQ改善。
在過去的十年中,監督下的語音增強已經從CNN和循環神經網絡(RNN)的使用中獲益匪淺。在[42]、[41]、[40]和[5]中,具有長短期記憶(LSTM)的RNN被用來進行語音增強。最近,Chen等人[1]提出了一個具有四個隱藏LSTM層的RNN,以解決不依賴噪聲的模型的說話人泛化問題。他們發現,RNN對未經訓練的說話人有很好的泛化作用,並且在STOI方面明顯優於前饋DNN。此外,CNN也被用於掩碼估計和頻譜映射[7],[25],[11],[31]。在[25]中,Park等人利用卷積編碼器-解碼器網絡(CED)來進行譜映射。CED實現了與DNN和RNN相當的去噪性能,而其可訓練的參數卻少得多。Grais等人[11]提出了一個類似的編碼器-解碼器架構。最近,我們提出了一個基於擴張卷積的門控殘差網絡,它有大的感受野,因此可以利用長期背景[31]。卷積遞歸網絡(CRNs)得益於CNNs的特征提取能力和RNNs的時空建模能力。 Naithani等人[22]通過連續堆疊卷積層、遞歸層和全連接層設計了一個CRN。 在[46]中開發了一個類似的CRN架構。最近,我們將CED和LSTMs集成到CRN中,這相當於一個因果系統[32]。此外,Takahashi等人[30]開發了一個CRN,在多個低尺度上結合了卷積層和遞歸層。
在一項初步研究中,我們最近提出了一種新型的CRN,用於執行單聲道語音增強的復數譜映射[33]。這個CRN是基於[32]中的架構。 與[6]中的CNN相比,CRN產生了更高的STOI和PESQ,而且計算效率更高。在這項研究中,我們進一步發展了CRN架構,並研究了用於單聲道語音增強的復數譜映射。我們對[33]的擴展包括以下內容。首先,每個卷積層或解卷積層被相應的門控線性單元(GLU)塊所取代[4]。第二,我們在最后一個去卷積層的基礎上增加了一個線性層來預測實譜和虛譜。
本文的其余部分組織如下。在第二節中,我們介紹了STFT域中的單聲道語音增強。在第三節中,我們詳細描述了我們提出的方法。在第五節中,我們介紹並討論了實驗結果。第六部分是本文的結論。
2 STFT域單耳語音增強
給定一個單麥克風混合物$y$,單聲道語音增強的目的是將目標語音$s$從背景噪聲$n$中分離出來。 噪聲混合物可以被建模為:
$$公式1:y[k]=s[k]+n[k]$$
其中$k$是時間樣本指數。對兩邊進行STFT,我們得到:
$$公式2:Y_{m,f}=S_{m,f}+N_{m,f}$$
其中$Y$、$S$和$N$分別代表$y$、$s$和$n$的STFT,$m$和$f$分別表示時間段和頻bin。在極坐標中,公式(2)變成
$$公式3:\left|Y_{m, f}\right| e^{i \theta_{Y_{m, f}}}=\left|S_{m, f}\right| e^{i \theta_{S_{m, f}}}+\left|N_{m, f}\right| e^{i \theta_{N_{m, f}}}$$
其中$|·|$表示幅值,$\theta $表示相位。虛數單位用$’i’$表示。在典型的基於頻譜映射的方法中,純凈語音的目標幅度譜(TMS)(即$|S_{m,f}|$是一個常用的訓練目標[20], [12]。在這些方法中,從噪聲特征(如噪聲幅度$Y_{m,f}$)到目標幅度的映射被學習。然后將估計的幅度$|\hat{S}_{m,f}|$與噪聲相位$\theta_{Y_{m,f}}$相結合,重新合成波形。圖1(a)描述了一個語音信號的相位譜,其中相位值被包裹在$(-\pi , \pi )$范圍內。經過包裝后,相位譜看起來相當隨機。在圖1(b)中,相位譜的解包版本導致了更平滑的相位圖,當連續的T-F單元之間的絕對相位跳動大於或等於$\pi $時,相位值通過添加$\pm 2\pi$的倍數進行校正。 因此,通過監督學習直接估計相位譜是難以做到的。
從另一個角度來看,語音信號的STFT可以用直角坐標表示。因此,公式。(2)可以改寫為
$$公式4:Y_{m, f}^{(r)}+i Y_{m, f}^{(i)}=\left(S_{m, f}^{(r)}+N_{m, f}^{(r)}\right)+i\left(S_{m, f}^{(i)}+N_{m, f}^{(i)}\right)$$
其中上標$(r)$和$(i)$分別表示實部和虛部。在[43]中,cIRM被定義為
$$公式5:M=\frac{Y^{(r)} S^{(r)}+Y^{(i)} S^{(i)}}{\left(Y^{(r)}\right)^{2}+\left(Y^{(i)}\right)^{2}}+i \frac{Y^{(r)} S^{(i)}-Y^{(i)} S^{(r)}}{\left(Y^{(r)}\right)^{2}+\left(Y^{(i)}\right)^{2}}$$
其中,為簡單起見,省略了指數$m$和$f$。增強的頻譜可以通過對噪聲頻譜應用cIRM $\hat{M}$的估計而得到。
$$公式6:S=\hat{M}*Y$$
其中上面的乘法’×’是一個復數算子
此外,我們還擴展了信號近似法(SA)[15]。SA通過最小化純凈語音的頻譜幅度和估計語音的頻譜幅度之間的差異來進行掩碼。 基於cRM的信號逼近(cRM-SA)的損失定義為:
$$公式7:S A=|c R M \times Y-S|^{2}$$
其中$|·|$代表復數模子,即復數的絕對值。
如圖1(d)和1(e)所示,實譜和虛譜都表現出清晰的譜時結構,類似於圖1(c)的幅度譜,因此適合於監督學習。因此,我們建議像[6]那樣,直接從噪聲語音的實譜和虛譜(即$Y^{(r)}$和$Y^{(i)}$)到純凈語音的實譜和虛譜(即$S^{(r)}$和$S^{(i)}$)學習譜映射。隨后,估計的實譜和虛譜被合並以恢復時域信號。
需要注意的是,Williamson等人[43]聲稱,通過DNN直接預測STFT的實部和虛部是無效的。然而,我們發現,在STOI和PESQ指標中,復數譜映射始終優於幅度譜映射、復數比率掩碼和基於復數比率掩碼的信號逼近,只要有一個精心設計的神經網絡結構。為方便起見,我們將復數頻譜映射中使用的訓練目標,即$S^{(r)}$和$S^{(i)}$,稱為目標復數頻譜(TCS)。
圖1:語音信號的相位、幅度、實部和虛部頻譜的圖示。
幅度以及實部和虛部頻譜的絕對值繪制在對數刻度上
3 系統描述
A 卷積循環網絡(CRN)
在[32]中,我們開發了一個卷積遞歸網絡,它本質上是一個編碼器-解碼器架構,在編碼器和解碼器之間有LSTMs。具體來說,編碼器包括五個卷積層,而解碼器包括五個去卷積層。在編碼器和解碼器之間,兩個LSTM層對時間依賴性進行建模。編碼器-解碼器的結構是以對稱的方式設計的:內核的數量在編碼器中逐漸增加,在解碼器中逐漸減少。為了沿頻率方向匯總上下文,在所有卷積層和解卷積層中沿頻率維度采用2的跨度。換句話說,特征圖的頻率維度在編碼器中逐層減半,在解碼器中逐層翻倍,這確保了輸出與輸入具有相同的形狀。此外,跳過連接被用來將每個編碼器層的輸出與相應的解碼器層的輸入連接起來。在CRN中,所有的卷積和解旋都是因果關系,因此增強系統不使用未來信息。圖2說明了[32]中的CRN架構,用於幅值域的頻譜映射。
B 門控線性單元
門控機制控制着整個網絡的信息流,這有可能允許對更復雜的相互作用進行建模。它們最早是為RNNs開發的[14]。在最近的一項研究中[34],Van den Oord等人采用了LSTM式的門控機制對圖像進行卷積建模,這導致了掩蓋式卷積。
$$公式8:\begin{aligned}
\mathbf{y} &=\tanh \left(\mathbf{x} * \mathbf{W}_{1}+\mathbf{b}_{1}\right) \odot \sigma\left(\mathbf{x} * \mathbf{W}_{2}+\mathbf{b}_{2}\right) \\
&=\tanh \left(\mathbf{v}_{1}\right) \odot \sigma\left(\mathbf{v}_{2}\right)
\end{aligned}$$
圖2 [32] 中用於譜映射的 CRN 的圖示
CRN 包含三個模塊:編碼器模塊、LSTM 模塊和解碼器模塊。 Conv表示卷積和Deconv反卷積
其中v1 = x ∗ W1 + b1,v2 = x ∗ W2 + b2。W’s和b’s分別表示內核和偏置,σ表示sigmoid函數。符號∗和分別代表卷積運算和逐元乘法。門控的梯度為
$$公式9:\begin{aligned}
\nabla\left[\tanh \left(\mathbf{v}_{1}\right) \odot \sigma\left(\mathbf{v}_{2}\right)\right]=& \tanh ^{\prime}\left(\mathbf{v}_{1}\right) \nabla \mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right) \\
&+\sigma^{\prime}\left(\mathbf{v}_{2}\right) \nabla \mathbf{v}_{2} \odot \tanh \left(\mathbf{v}_{1}\right)
\end{aligned}$$
其中tanh(v1), σ(v2)∈(0, 1),質數符號表示微分。由於降尺度因子tanh(v1)和σ(v2)的作用,隨着網絡深度的增加,梯度逐漸消失了。為了緩解這個問題,Dauphin等人[4]引入了GLU。
$$公式10:\begin{aligned}
\mathbf{y} &=\left(\mathbf{x} * \mathbf{W}_{1}+\mathbf{b}_{1}\right) \odot \sigma\left(\mathbf{x} * \mathbf{W}_{2}+\mathbf{b}_{2}\right) \\
&=\mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right)
\end{aligned}$$
梯度的GLU
$$公式11:\nabla\left[\mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right)\right]=\nabla \mathbf{v}_{1} \odot \sigma\left(\mathbf{v}_{2}\right)+\sigma^{\prime}\left(\mathbf{v}_{2}\right) \nabla \mathbf{v}_{2} \odot \mathbf{v}_{1}$$
包括一條沒有降級的路徑∇v1 σ(v2),它可以被看作是一個乘法的跳過連接,有利於梯度在各層中流動。圖 3(a)是一個卷積 GLU 塊(表示為 “ConvGLU”)的圖示。去卷積GLU塊(記為 “DeconvGLU”)是類似的,只是卷積層被去卷積層所取代,如圖3(b)所示。
C 通過分組策略降低模型復雜度
模型的效率對於許多現實世界的應用是很重要的。例如,移動電話應用需要低延遲的實時處理。在這些應用中,高的計算效率和小的內存占用是必要的。Gao等人[9]最近提出了一種分組策略來提高遞歸層的效率,同時保持其性能。這種分組策略如圖4所示。在一個循環層中,輸入特征和隱藏狀態都被分成互不相干的組,組內特征在每個組內分別學習,如圖4(b)所示。分組操作大大減少了層間連接的數量,從而降低了模型的復雜性。然而,組間的依賴性不能被捕捉到。換句話說,一個輸出只取決於相應特征組中的輸入,這可能會大大降低表示能力。為了緩解這個問題,在兩個連續的遞歸層之間采用了一個無參數的表征重排層來重排特征和隱藏狀態,這樣就可以恢復組間的相關性(圖4©)。為了提高模型的效率,我們對模型中的LSTM層采用了這種分組策略。我們發現,這種策略在適當的組數下提高了增強性能。
圖3 一個卷積GLU塊和一個反卷積GLU塊圖,其中σ表示sigmoid函數。
圖4 rnn的分組策略示例
D 網絡結構
這項研究擴展了[32]中的CRN架構(見圖2),以執行復雜的譜映射。由此產生的CRN還結合了GLU,因此相當於一個門控卷積遞歸網絡(GCRN)。圖5描述了我們提出的GCRN架構。請注意,與[6]一樣,噪聲語音的實譜和虛譜被視為兩個不同的輸入通道。如圖5所示,編碼器模塊和LSTM模塊在估計實部和虛部時是共享的,而兩個不同的解碼器模塊則分別用於估計實部和虛部的頻譜。這種結構的設計受到多任務學習的啟發[19], [45], 其中多個相關的預測任務被聯合學習,並在任務間共享信息。對於復數譜映射,實部分的估計和虛部分的估計可以被視為兩個相關的子任務(見[43])。因此,參數共享有望實現子任務之間的正則化效應,這可能導致更好的泛化。此外,參數共享可能會鼓勵學習,特別是當兩個子任務高度相關的時候。另一方面,子任務之間過度的參數共享可能會阻礙學習,特別是當兩個子任務是弱相關的時候。因此,正確選擇參數共享可能對性能很重要。在[33]中,我們研究了四種不同的參數共享機制。其中,共享編碼器模塊和LSTM模塊而不共享解碼器模塊會導致最佳性能。
在這項研究中,我們假設所有的信號都是以16千赫茲采樣的。利用一個20ms的漢明窗來產生一組時間幀,相鄰時間幀之間有50%的重疊。我們使用161維頻譜,這相當於320點STFT(16 kHz × 20 ms)。
表一提供了我們提出的網絡結構的細節。 每層的輸入大小和輸出大小是以featureMaps × timeSteps × frequencyChannels的格式給出的。此外,層的超參數以(kernelSize, strides, outChannels)的格式指定。請注意,每個解碼器層的特征圖的數量因跳過連接而增加一倍。我們沒有使用[32]中的2×3(時間×頻率)的核大小,而是使用了1×3的核大小,我們發現這並不會降低性能。每個卷積或解卷積的GLU塊后面都有一個批量歸一化[16]操作和一個指數線性單元(ELU)[3]激活函數。在每個解碼器的頂部疊加一個線性層,將學到的特征投射到實數或虛數譜圖上。
圖5 用於復數譜映射的GCRN的網絡結構。更多詳情見表一
表1 提出了GCRN架構,其中t表示譜圖中的時間幀數
4 實驗步驟
A 數據准備
在我們的實驗中,我們在WSJ0 SI-84訓練集[26]上評估所提出的模型,該訓練集包括來自83個說話人(42個男性和41個女性)的7138個語料。我們將這些說話人中的6個(3個男性和3個女性)留作測試用,沒有經過訓練。換句話說,我們用剩下的77個說話者來訓練模型。在這77個訓練者的語料中,我們從NOISEX-92數據集[35]中隨機抽出150個語料,用工廠噪聲(稱為 “factory1”)創建一個驗證集,信噪比為-5dB。對於訓練,我們使用來自一個聲音效果庫(可在https://www.soundideas.com)的10,000個噪音,其總時長約為126小時。 對於測試,我們使用兩個高度非平穩的噪音,即咿呀聲(“BAB”)和食堂(“CAF”),來自Auditec CD(可在http://www.auditec.com)。
我們的訓練集包含32萬個混合物,其總時間約為500小時。具體來說,為了創建一個訓練混合物,我們將一個隨機選擇的訓練語料與10,000個訓練噪聲中的一個隨機片段進行混合。信噪比從{-5, -4, -3, -2, -1, 0}dB中隨機抽取。我們的測試集由150個混合物組成,這些混合物是由6個未訓練過的說話人的25×6句話創建的。我們對測試集使用三種信噪比,即-5、0和5dB。
B 基線和培訓方法
我們將我們提出的方法與五個基線進行比較。我們首先訓練一個CRN,將噪聲語音的幅度譜映射到純凈語音的幅度譜[32](表示為 “CRN + TMS”)。估計的幅值與噪聲相位相結合,重新合成波形。在第二條基線(表示為 “CRN-RI + TMS”)中,同樣的CRN被用來從噪聲語音的實部和虛部頻譜映射到純凈語音的幅度頻譜。第三,如[6]所述,訓練一個CNN來執行復數譜映射。它有四個卷積層,有50個核,核大小為1×25,然后是兩個全連接層,每層有512個單元。除輸出層外,所有層都采用了參數化整流線性單元(PReLUs)[13]。 在輸出層,322個(161×2)線性激活單元被用來預測實數和虛數譜。第四,我們訓練我們提出的GCRN來預測cIRM。請注意,cIRM的實部和虛部可能在(-∞, +∞)中有很大的范圍,這可能使cIRM的估計變得復雜。 因此,我們按照[43]中的建議,用以下雙曲正切來壓縮cIRM。
$$公式12:O^{(x)}=K \frac{1-e^{-C \cdot M^{(x)}}}{1+e^{-C \cdot M^{(x)}}}$$
其中x表示r或i,分別表示實部和虛部。在推理過程中,未壓縮的掩碼的估計值可按以下方式恢復。
$$公式13:\hat{M}^{(x)}=-\frac{1}{C} \log \left(\frac{K-\hat{O}^{(x)}}{K+\hat{O}^{(x)}}\right)$$
其中Oˆ(x)表示GCRN的輸出。如[43]所述,我們設定K=10,C=0.1。第五,我們用cRM-SA作為訓練目標,訓練相同的GCRN。
模型的訓練使用AMSGrad優化器[27],學習率為0.001。我們使用平均平方誤差(MSE)作為目標函數。在語料層面上,迷你批的大小被設定為4。在一個minibatch中,所有的訓練樣本都用零填充,使其具有與最長樣本相同的時間步長。通過交叉驗證選擇最佳模型。
表2 STOI和PESQ在5db信噪比下不同方法的比較
表3 在0 dB信噪比下STOI和PESQ方法的比較
表4 STOI和PESQ在5db信噪比下不同方法的比較
5 實驗結果與分析
A 實驗結果比較
表二、三和四分別顯示了不同模型和訓練目標之間在STOI和PESQ方面的綜合比較,即-dB、0dB和5dB信噪比。 數字代表了每個測試條件下測試樣本的平均數。每個測試條件下的最佳分數用黑體字突出。KS表示時間方向上的核大小,G表示分組LSTM層的組數。 注意,G=1意味着不進行分組。我們首先比較了我們提出的以TCS為訓練目標的不同組數的GCRN結構,如表II、III和IV的最后四行所示。可以看出,G=1、G=2、G=4和G=8在兩個指標方面都產生了類似的結果,這表明分組策略的有效性。
此外,我們提出的GCRN模型大大超過了[6]中的CNN(KS = 1)。例如,在信噪比為-5dB的情況下,G=2的GCRN比CNN提高了13.14%的STOI,PESQ提高了0.47。在核大小為1×25的情況下,CNN只捕獲了沿頻率方向的上下文,沒有學習時間上的依賴性。相比之下,我們提出的GCRN同時考慮了語音的頻率和時間背景。我們通過在時間方向上使用不同的核大小來研究[6]中的CNN的時間背景的影響。具體來說,除了[6]中的原始版本(即1×25)之外,我們使用了四種不同的核大小,即2×25、3×25、4×25和5×25。請注意,這些核只對當前和過去的時間框架進行操作,這相當於因果卷積。通過四個卷積層,這些CNN分別對應於5、9、13和17幀的不同時間背景窗口大小。如表二、三和四所示,較大的上下文窗口尺寸產生較高的STOI,但在PESQ方面略有改善或沒有改善。
以cRM-SA作為訓練目標,我們提出的GCRN產生的STOI和PESQ明顯優於使用cIRM的相同GCRN。從cRM-SA到TCS進一步改善了這兩個指標。以-5dB信噪比的情況為例。與估計的cIRM相比,采用cRM-SA的擬議GCRN(G=1)產生了3.68%的STOI改進和0.09的PESQ改進。估算的TCS還實現了2.28%的STOI改善和0.08的PESQ改善。
我們現在比較幅度域和復數域的譜映射。如表二、三和四所示,"CRN + TMS "和 "CRN-RI + TMS "利用相同的模型和訓練目標,但輸入特征不同。使用噪聲語音的實譜和虛譜作為特征,產生的STOI和PESQ比使用噪聲幅度譜略好。我們提出的方法(表示為 “GCRN + TCS”),利用TCS作為訓練目標,比 "CRN-RI + TMS "大大提高了STOI和PESQ。例如,"GCRN + TCS (G = 2) "在信噪比為-5 dB時,比 "CRN-RI + TMS "提高了4.21%的STOI,PESQ提高了0.1。
為了進一步證明復數譜映射的有效性,我們另外用TMS和TCS分別訓練兩個LSTM模型。兩個LSTM模型都有四個堆疊的LSTM隱藏層,每層有1024個單元,一個全連接層被用來估計TMS和TCS,分別有一個softplus激活函數[10]和一個線性激活函數。如表二、三和四所示,復數譜映射產生的STOI和PESQ一直比幅度頻譜映射高。
此外,圖6顯示了比未經處理的混合物的信噪比改進(ΔSNR)。可以看出,我們提出的方法比基線產生了更大的信噪比改善,在-5dB時,信噪比改善超過了12dB。圖7(a)顯示了不同模型中可訓練參數的數量,圖7(b)顯示了為處理一個時間框架而進行的浮點融合乘法的數量。通過分組策略,我們提出的模型在計算成本和內存消耗方面都比[32]中的CRN效率更高。[6]中的CNN的可訓練參數要少得多,但計算成本比[32]中的CRN要高。在G4中,我們提出的GCRN具有與CNN相當的參數數量,但在計算上要高效得多。此外,圖8顯示了GCRN以cIRM、cRM-SA和TCS為訓練目標的純凈語音、噪聲語音和增強語音的譜圖實例。我們可以看到,在用估計的cIRM或cRM-SA增強的語音的頻譜中,一些語音成分被丟失。相比之下,通過估計的TCS增強的語音表現出與純凈語音更相似的譜時調制模式,並且比通過估計的cIRM或cRM-SA增強的語音失真更少。
圖6 5、0 和 5 dB 的未處理混合的 ΔSNR(以 dB 為單位)。
方法是 (i) CRN+TMS [32], (ii) CRN-RI+TMS, (iii) GCRN+cIRM (G = 1), (iv) GCRN + cRM-SA (G = 1), (v ) CNN + TCS [6], (vi) GCRN + TCS (G = 1), (vii) GCRN + TCS (G = 2), (viii) GCRN + TCS (G = 4) 和 (ix) GCRN + TCS (G = 8)。
圖7 不同模型中每個時間范圍 (b) 的可訓練參數 (a) 和浮點融合乘加的數量。 兩部分的單位都是百萬。
模型是 (i) CRN [32], (ii) CNN [6], (iii) GCRN (G = 1), (iv) GCRN (G = 2), (v) GCRN (G = 4) 和 ( vi) GCRN (G = 8),分別。
圖8 清晰語音、嘈雜語音、cRM 增強語音、估計 cRM-SA 增強語音和估計 TCS 增強語音的實部(頂部)和虛部(底部)頻譜的圖示。 實部和虛部頻譜的絕對值繪制在對數刻度上。
表5 建議的方法和時域方法的比較。 這里√表示因果模型,×表示非因果模型
我們還將我們提出的方法與最近的兩種時域語音增強方法進行比較。AECNN-SM(具有STFT幅度損失的自動編碼器CNN)[24]和FCN(全卷積網絡)[8]。此外,我們還訓練了一個非因果版本的GCRN(表示為 “Bi-GCRN”),其中中間的LSTM層被相應的雙向LSTM層所取代。比較結果見表五,其中的數字代表了兩個測試噪聲的平均值。我們可以看到,GCRN在-5dB時比AECNN-SM提高了1.19%的STOI,而GCRN和AECNN-SM在0dB和5dB時產生類似的STOI。在PESQ方面,AECNN-SM的表現一直優於GCRN。 應該注意的是,AECNN-SM方法使用的時間框架大小(即2048)比我們的方法(即320)大得多,這可能對AECNN-SM有益。還可以看到,我們的方法在STOI和PESQ方面都大大超過了FCN。此外,Bi-GCRN產生的STOI和PESQ明顯高於GCRN。這並不令人驚訝,因為未來的幀顯然包含了對語音增強有用的信息。
B 相位估計的評估
如果噪聲具有不同的相位,語音信號的相
圖9 圖示不同條件下的相位誤差
表6 不同信噪比下相位距離對雜波噪聲的影響
表7 相位距離對不同信噪比下自助食堂噪聲的影響
復數譜映射提供了一個相位估計,即用兩個未知數解出以下兩個方程。
$$公式14:\hat{S}^{(r)}=|\hat{S}| \cos \left(\hat{\theta}_{S}\right)$$
$$公式15:\hat{S}^{(i)}=|\hat{S}| \sin \left(\hat{\theta}_{S}\right)$$
其中Sˆ(r)和Sˆ(i)是網絡輸出。為了評估估計的相位,我們采用兩種相位測量方法。第一個是目標譜圖S和估計的譜圖Sˆ之間的相位距離(PD),定義在[2]中。
$$公式16:P D(S, \hat{S})=\sum_{m, f} \frac{\left|S_{m, f}\right|}{\sum_{m,^{\prime} f^{\prime}}\left|S_{m,^{\prime} f^{\prime}}\right|} \angle\left(S_{m, f}, \hat{S}_{m, f}\right)$$
其中∠(Sm,f, Sˆm,f) ∈ [0◦, 180◦] 表示Sm,f和Sˆm,f之間的角度。相位距離可以看作是相應的T-F單元之間角度的加權平均值,其中每個T-F單元由目標譜圖的幅度加權,以強調該單元的相對重要性。第二個措施是通過比較使用三種相位重新合成的時域信號來量化估計相位的影響:噪聲相位、估計相位和清潔相位。這些相位與三種不同的幅度相結合:噪聲幅度、由[32]中的CRN估計器增強的幅度和清潔幅度。
我們評估了兩種估計相位,它們是由我們提出的方法(即 “GCRN + TCS (G = 1)”)所增強的頻譜計算出來的。 “GCRN + TCS (G = 1)”)和 “GCRN + cIRM (G = 1)”。表六和表七分別列出了在咿咿呀呀的噪聲和食堂噪聲上,純凈頻譜和噪聲頻譜之間的相位距離(PD(S,Y))以及純凈頻譜和增強的頻譜之間的相位距離(PD(S,Sˆ))。數字代表每個測試條件下測試樣本的平均值和標准偏差。我們可以看到,復數譜映射在每個條件下都能改善相位。例如,在-5dB的食堂噪聲上,相位距離平均提高了8.246◦。此外,就相位距離而言,"GCRN + TCS (G = 1) "產生的相位始終比 "GCRN + cIRM (G = 1) "好。
表八、九和十分別列出了從噪聲相位、估計相位和清潔相位重新合成的信號的比較。如表八所示,僅通過增強相位而保持噪聲幅度不改變,客觀可懂度和感知質量都得到了改善。例如,通過 "GCRN + TCS (G = 1) "估計的相位,在-5 dB信噪比下,比噪聲相位提高了1.38%的STOI和0.12的PESQ。清潔階段在-5分貝的情況下,STOI增加了2.05%,PESQ增加了0.1。從表九中,我們可以看到,增強相位可以進一步提高 STOI 和 PESQ,而不是僅僅增強幅度,特別是在低信噪比條件下(如 -5 dB),相位嚴重下降。 如表十所示,在幅度純凈情況下,估計的相位比噪聲相位的STOI和PESQ都有所提高。 此外,用 "GCRN + TCS (G = 1) "估計的相位始終比用 "GCRN + cIRM (G = 1) "估計的相位高。
上述評價還表明,使用噪聲相位是不進行相位增強的傳統方法的一個重要限制。我們的復數譜映射提供了一個有效的相位估計,避免了對噪聲相位的使用。
6 結論
在這項研究中,我們提出了一個使用卷積遞歸網絡進行復數譜映射的新框架,該框架從嘈雜語音的實部和虛部頻譜學習到純凈語音的頻譜。它能同時增強噪聲語音的幅值和相位響應。 受多任務學習的啟發,所提出的方法擴展了一個新開發的CRN,並產生了一個因果關系,以及與噪音和揚聲器無關的單聲道語音增強算法。我們的實驗結果表明,用我們提出的模型進行復數譜映射,比幅度頻譜映射以及復雜比率掩碼和基於復雜比率掩碼的信號近似,明顯改善了STOI和PESQ。此外,我們提出的模型在復數譜映射方面大大超過了現有的CNN。 此外,我們在遞歸層中加入了分組策略,在保持性能的同時大幅提高了模型效率。
我們提出的方法還提供了一個相位估計,證明它比噪聲相位更接近清潔相位。從另一個角度來看,我們發現,當與噪聲幅度或增強幅度相結合時,估計相位產生的STOI和PESQ明顯高於噪聲相位。
應該指出的是,純凈語音可以從目標復數譜圖中完美地恢復出來。我們相信,基於GCRN的復數譜映射的方法代表了在不利的聲學環境和實際應用中產生高質量增強語音的重要一步。在未來的研究中,我們計划將我們的方法擴展到多通道語音增強,其中准確的相位估計可能更加重要。
表8 在stoi和pesq中,噪聲相位、估計相位和純凈相位與噪聲幅度的比較
表9 比較stoi和pesq中結合增強幅度的噪聲相位、估計相位和清潔相位
表10 stoi和pesq中噪聲相位、估計相位和純凈相位與純凈幅度的比較
致謝
作者想要感謝A. Pandey提供他的AECNN-SM實現來進行比較。
參考文獻
[1] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, J. Acoust. Soc. Am., vol. 141, no. 6, pp. 4705 4714, 2017.
[2] H.-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee, Phase-aware speech enhancement with deep complex u-net, 2019, arXiv:1903.03107.
[3] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (ELUS), in Proc. Int. Conf. Learn. Represent., 2016.
[4] Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, Language modeling with gated convolutional networks, in Proc. 34th Int. Conf.Mach. Learn., 2017, vol. 70, pp. 933 941.
[5] H. Erdogan, J. R. Hershey, S.Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2015, pp. 708 712.
[6] S.-W. Fu, T.-Y. Hu, Y. Tsao, and X. Lu, Complex spectrogram enhancement by convolutional neural network with multi-metrics learning, in Proc. IEEE 27th Int. Workshop Mach. Learn. Signal Process., 2017.
[7] S.-W. Fu, Y. Tsao, and X. Lu, SNR-aware convolutional neural network modeling for speech enhancement, in Proc. 17th Annu. Conf. Int. Speech Commun. Assoc., 2016, pp. 3768 3772.
[8] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 26, no. 9, pp. 1570 1584, Sep. 2018.
[9] F. Gao, L. Wu, L. Zhao, T. Qin, X. Cheng, and T.-Y. Liu, Efficient sequence learning with group recurrent networks, in Proc. Conf. North Am. Chapter Assoc. Comput. Linguist.: Human Lang. Technol., Volume 1 (Long Papers), 2018, vol. 1, pp. 799 808.
[10] X. Glorot, A. Bordes, and Y. Bengio, Deep sparse rectifier neural networks, in Proc. 14th Int. Conf. Artif. Intell. Statist., 2011, pp. 315 323.
[11] E. M. Grais andM. D. Plumbley, Single channel audio source separation using convolutional denoising autoencoders, in Proc. IEEE Global Conf. Signal Inf. Process., 2017, pp. 1265 1269.
[12] K. Han, Y.Wang, and D. L.Wang, Learning spectral mapping for speech dereverberation, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2014, pp. 4628 4632.
[13] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in Proc. IEEE Int. Conf. Comput. Vis., 2015, pp. 1026 1034.
[14] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Comput., vol. 9, no. 8, pp. 1735 1780, 1997.
[15] P.-S. Huang, M. Kim, M. Hasegawa-Johnson, and P. Smaragdis, Deep learning formonaural speech separation, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2014, pp. 1562 1566.
[16] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in Proc. Int. Conf. Mach. Learn., 2015, pp. 448 456.
[17] M. Krawczyk and T. Gerkmann, STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1931 1940, Dec. 2014.
[18] J. Kulmer and P. Mowlaee, Phase estimation in single channel speech enhancement using phase decomposition, IEEE Signal Process. Lett., vol. 22, no. 5, pp. 598 602, May 2015.
[19] A.Kumar and H. Daumé III, Learning task grouping and overlap in multitask learning, in Proc. 29th Int.Conf.Mach. Learn., 2012, pp. 1383 1390.
[20] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, Speech enhancement based on deep denoising autoencoder, in Proc. Interspeech, 2013, pp. 436 440.
[21] P. Mowlaee, R. Saeidi, and R. Martin, Phase estimation for signal reconstruction in single-channel source separation, in Proc. 13th Annu. Conf. Int. Speech Commun. Assoc., 2012, pp. 1548 1551.
[22] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl, N. H. Pontoppidan, and T.Virtanen, Lowlatency sound source separation using convolutional recurrent neural networks, in Proc. IEEEWorkshop Appl. Signal Process. Audio Acoust., 2017, pp. 71 75.
[23] K. Paliwal, K. Wójcicki, and B. Shannon, The importance of phase in speech enhancement, Speech Commun., vol. 53, no. 4, pp. 465 494, 2011.
[24] A. Pandey and D. L. Wang, A new framework for supervised speech enhancement in the time domain, in Proc. Interspeech, 2018, pp. 1136 1140.
[25] S. R. Park and J.W. Lee, A fully convolutional neural network for speech enhancement, in Proc. 18th Annu. Conf. Int. Speech Commun. Assoc., 2017, pp. 1993 1997.
[26] D. B. Paul and J. M. Baker, The design for the wall street journal-based CSRcorpus, in Proc.Workshop SpeechNatural Lang., 1992, pp. 357 362.
[27] S. J. Reddi, S. Kale, and S. Kumar, On the convergence of adam and beyond, in Proc. Int. Conf. Learn. Represent., 2018.
[28] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ) A new method for speech quality assessment of telephone networks and codecs, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2001, vol. 2, pp. 749 752.
[29] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125 2136, Sep. 2011.
[30] N. Takahashi, N. Goswami, and Y.Mitsufuji, Mmdenselstm: An efficient combination of convolutional and recurrent neural networks for audio source separation, in Proc. 16th Int. Workshop Acoust. Signal Enhancement, 2018, pp. 106 110.
[31] K. Tan, J. Chen, and D. L. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 1, pp. 189 198, Jan. 2019.
[32] K. Tan and D. L. Wang, A convolutional recurrent neural network for real-time speech enhancement, in Proc. 19th Annu. Conf. Int. Speech Commun. Assoc., 2018, pp. 3229 3233.
[33] K. Tan and D. L.Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2019, pp. 6865 6869.
[34] A. Van Den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves, et al., Conditional image generation with pixelcnn decoders, in Proc. Adv. Neural Inf. Process. Syst., 2016, pp. 4790 4798.
[35] A. Varga and H. J. Steeneken, Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems, Speech Commun., vol. 12, no. 3, pp. 247 251, 1993.
[36] D. L.Wang andG. J.Brown, Eds, Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. Hoboken, NJ, USA: Wiley, 2006.
[37] D. L. Wang and J. Lim, The unimportance of phase in speech enhancement, IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-30, no. 4, pp. 679 681, Aug. 1982.
[38] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1849 1858, Dec. 2014.
[39] Y.Wang and D. L.Wang, A deep neural network for time-domain signal reconstruction, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2015, pp. 4390 4394.
[40] F. Weninger et al., Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR, in Proc. Int. Conf. Latent Variable Anal. Signal Sepa., 2015, pp. 91 99.
[41] F.Weninger, F. Eyben, and B. Schuller, Single-channel speech separation with memory-enhanced recurrent neural networks, in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2014, pp. 3709 3713.
[42] F.Weninger, J. R. Hershey, J. Le Roux, and B. Schuller, Discriminatively trained recurrent neural networks for single-channel speech separation, in Proc. 2nd IEEE Global Conf. Signal Inf. Process. Symp. Mach. Learn. Appl. Speech Process., 2014, pp. 577 581.
[43] D. S. Williamson, Y. Wang, and D. L. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 24, no. 3, pp. 483 492, 2016.
[44] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal Process. Lett., vol. 21, no. 1, pp. 65 68, Jan. 2014.
[45] Y. Zhang and Q. Yang, An overview of multi-task learning, Nat. Sci. Rev., vol. 5, no. 1, pp. 30 43, 2018. [46] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, Convolutional-recurrent neural networks for speech enhancement, in Proc. IEEEInt. Conf.Acoust., Speech Signal Process., 2018, pp. 2401 2405.