論文地址:用於實時語音增強的卷積遞歸神經網絡
代碼地址:https://github.com/JupiterEthan/CRN-causal
作者主頁:https://jupiterethan.github.io/
引用格式:Tan K, Wang D L. A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement[C]//Interspeech. 2018: 3229-3233.
摘要
許多現實世界中的語音增強應用,如助聽器和人工耳蝸,都需要實時處理,沒有延遲或低延遲。在本文中,我們提出了一種新型的卷積遞歸網絡(convolutional recurrent network,CRN)來解決實時單聲道語音增強問題。我們將卷積編碼解碼器(convolutional encoder decoder,CED)和長短時記憶(LSTM)納入CRN架構,搭建一個自然適合實時處理的因果系統。此外,所提出的模型與噪聲和說話人無關,即噪聲類型和說話人在訓練和測試中可以不同。我們的實驗表明,與現有的基於LSTM的模型相比,CRN所帶來的客觀可懂性和感知質量始終更好。此外,CRN的可訓練參數要少得多。
關鍵詞:噪聲和說話人無關的語音增強,實時應用,卷積編碼器-解碼器,長短期記憶,卷積遞歸網絡
1 引言
語音分離旨在將目標語音從背景干擾中分離出來,背景干擾可能包括非語音噪聲、干擾語音和房間混響[1]。語音增強是指語音和非語音噪聲的分離。它在現實世界中有各種應用,如強大的自動語音識別和移動語音通信。對於許多這樣的應用,需要實時處理。換句話說,語音增強是以低計算復雜性進行的,提供近乎即時的輸出。
在這項研究中,我們專注於可以在實時應用中進行的單聲道(單麥克風)語音增強。 例如,在數字助聽器中,已經發現低至3毫秒的延遲對聽眾來說是明顯的,而超過10毫秒的延遲是令人討厭的[2]。對於這樣的應用,通常需要因果語音增強系統,其中不允許有未來信息(因果系統只能使用過去的信息,不能使用未來的信息)。
受計算聽覺場景分析(CASA)中時頻(T-F)掩碼概念的啟發[3],近年來,語音分離被表述為監督學習,采用深度神經網絡(DNN)來學習 噪聲聲學特征到T-F掩碼的映射[4]。理想的二進制掩碼,將T-F單元分類為以語音為主或以噪聲為主,是監督式語音分離中使用的第一個訓練目標。最近的訓練目標包括理想比率掩碼[5]和與目標語音的幅度或功率譜對應的基於映射的目標[6][7]。在本研究中,我們使用目標語音的幅值譜作為訓練目標。
對於監督下的語音增強,噪聲泛化和說話人泛化都是至關重要的。處理噪聲泛化的一個簡單而有效的方法是用不同的噪聲類型進行訓練[8]。類似地,為了解決說話人的泛化問題,在訓練集中包括大量的說話人。然而,人們發現,前饋DNN在有許多訓練說話人的情況下,無法跟蹤目標說話人[9] [10] [11]。通常情況下,DNN從幀周圍的一個小的上下文窗口獨立地預測每個時間幀的標簽。一種解釋是,這種DNN不能利用長期的語境,而這對於跟蹤目標說話人是至關重要的。最近的研究[9][10]表明,為了利用長期語音,將語音分離表述為序列到序列的映射會更好。
在這樣的表述下,遞歸神經網絡(RNN)和卷積神經網絡(CNN)已經被用於噪聲和說話人無關的語音增強,其中噪聲類型和說話人在訓練和測試中可能是不同的。Chen等人[10]提出了一個具有四個隱藏LSTM層的RNN,以處理與噪聲無關的模型的說話人泛化問題。他們的實驗結果表明,LSTM模型對未經訓練的說話人有很好的泛化作用,並且在短時客觀可懂度(STOI)方面大大超過了基於DNN的模型[12]。最近的一項研究[13]開發了一個基於擴張卷積的門控殘差網絡(GRN)。與[10]中的LSTM模型相比,GRN表現出更高的參數效率和更好的泛化能力,適用於不同信噪比水平下的未經訓練的說話者。另一方面,GRN需要大量的未來信息用於掩碼估計或每個時間段的頻譜映射。 因此,它不能用於實時語音增強。
在最近關於CRN的工作[14][15]的啟發下,我們開發了一個新穎的CRN架構,用於實時的噪聲和說話人無關的語音增強。CRN包含了一個卷積編碼器-解碼器和長短期記憶。我們發現,與[10]中的LSTM模型相比,我們提出的的CRN得到了更好的客觀語音可懂度和質量。
本文的其余部分組織如下。我們在第2節中對我們提出的模型進行了詳細描述。實驗設置和結果在第3節中介紹。我們在第4節中總結了本文。
2 系統描述
2.1 帶有因果卷積的編碼器-解碼器
Badrinarayanan等人首先提出了一個用於像素化圖像標簽的卷積編碼器-解碼器網絡[16]。它包括一個卷積編碼器和一個相應的解碼器,該解碼器被送入一個softmax分類層。編碼器是卷積層和池化層的堆疊,用於從原始輸入圖像中提取高級特征。解碼器與編碼器的結構基本相同,順序相反,在編碼器的輸出端將低分辨率的特征圖映射為完整輸入圖像尺寸的特征圖。對稱的編碼器-解碼器結構確保輸出與輸入具有相同的形狀。有了這樣一個吸引人的屬性,編碼器-解碼器架構自然適合任何像素級的密集預測任務,其目的是為輸入圖像的每個像素預測一個標簽。
圖1:因果循環的一個例子。卷積輸出不依賴於未來的輸入
對於語音增強,一種方法是采用CED從噪聲語音的幅度譜圖映射到干凈語音的幅度譜圖,其中幅度譜圖被簡單地視為圖像。據我們所知,Park等人[17]首次將CED用於語音增強。他們提出了一個冗余的CED網絡(R-CED),它由卷積、批量歸一化(BN)[18]和ReLU激活[19]層的重復組成。R-CED架構還加入了跳過連接以促進優化,它將編碼器中的每一層連接到解碼器中的相應層。
在我們提出的網絡中,編碼器包括五個卷積層,而解碼器有五個反卷積層。我們將指數線性單元(ELU)[20]應用於除輸出層之外的所有卷積層和去卷積層。與ReLUs相比,ELU已被證明能帶來更快的收斂和更好的泛化。在輸出層,我們利用softplus激活[19],它是ReLU函數的平滑近似,可以約束網絡輸出始終為正。此外,我們在每次卷積(或解卷積)后和激活前采用批量歸一化。核的數量保持對稱:核的數量在編碼器中逐漸增加,而在解碼器中逐漸減少。為了利用沿頻率方向更大的上下文,我們對所有卷積(或反卷積)層沿頻率維度應用2的步幅。換句話說,我們在編碼器中逐層將特征圖的頻率維度大小減半,在解碼器中逐層將其加倍,而我們不改變特征圖的時間維度大小。為了改善整個網絡的信息和梯度流動,我們利用跳過連接,將每個編碼器層的輸出與每個解碼器層的輸入連接起來。
為了得到一個用於實時語音增強的因果系統,我們在編碼器-解碼器結構上施加了因果卷積。圖1描述了一個因果卷積的例子。請注意,輸入可以被視為一個特征向量的序列,而圖1中只說明了時間維度。在因果卷積中,輸出不依賴於未來的輸入。使用因果卷積而不是非因果卷積,編碼器-解碼器架構將導致一個因果系統。注意,我們可以很容易地將因果反卷積應用到解碼器,因為反卷積本質上是一個卷積操作。
2.2 利用LSTM進行時間建模
為了跟蹤目標說話人,利用長期背景可能很重要,而上述卷積編碼器-解碼器無法利用這些背景。LSTM[21]是RNN的一種特殊類型,它包含一個記憶單元,在聲學建模和視頻分類等各種應用中已經成功地進行了時間建模。為了說明語音的時間動態,我們在編碼器和解碼器之間插入兩個堆疊的LSTM層。在這項研究中,我們使用由以下公式定義的LSTM。
$$公式1:i_{t} =\sigma(W_{i i} x_{t}+b_{i i}+W_{h i} h_{t-1}+b_{h i})$$
$$公式2:f_{t} =\sigma(W_{i f} x_{t}+b_{i f}+W_{h f} h_{t-1}+b_{h f})$$
$$公式3:g_{t} =\tanh (W_{i g} x_{t}+b_{i g}+W_{h g} h_{t-1}+b_{h g})$$
$$公式4:o_{t} =\sigma(W_{i o} x_{t}+b_{i o}+W_{h o} h_{t-1}+b_{h o})$$
$$公式5:c_{t} =f_{t} \odot c_{t-1}+i_{t} \odot g_{t}$$
$$公式6:h_{t} =o_{t} \odot \tanh (c_{t})$$
其中$x_t$、$g_t$、$c_t$和$h_t$分別代表時間t的輸入、區塊輸入、記憶單元和隱藏激活。W’s和b’s分別表示權重和偏置。$\sigma $代表sigmoid非線性,$\bigodot $代表元素相乘。
為了適應LSTM所要求的輸入形狀,我們將編碼器輸出的頻率維度和深度維度扁平化,在將其送入LSTM層之前產生一個特征向量序列。隨后,LSTM層的輸出序列被重新塑造,以適應解碼器。值得注意的是,LSTM層的加入並沒有改變系統的因果關系。
2.3 網絡結構
在這項研究中,我們使用161維的短時傅里葉變換(STFT)噪聲語音的幅度頻譜作為輸入特征,並將純凈語音作為訓練目標。我們提出的CRN如圖2所示,其中網絡輸入被編碼為高維深度特征,然后深度特征向量的序列被兩個LSTM層建模。隨后,LSTM層的輸出序列被解碼器轉換回原始輸入形狀。 提出的CRN得益於CNN的特征提取能力和RNN的時間建模能力,通過將這兩種拓撲結構結合在一起。
圖2 我們提議的CRN的網絡架構
表1提供了我們建議的網絡結構的更詳細描述。每層的輸入大小和輸出大小是以(feature Maps,time Steps,frequency Channels)的格式指定的。層的超參數以(kernel Size, strides, out Channels)格式給出。對於所有的卷積和解卷積,我們在時間方向上應用零填充,但在頻率方向上不應用。為了進行因果卷積,我們使用2×3(時間×頻率)的核大小。請注意,每個解碼器層的特征圖的數量因跳躍連接(cat)而翻倍。
表1:我們提議的CRN的架構。這里T表示STFT幅度譜中的時間幀數
2.4 LSTM基線
在我們的實驗中,我們建立了兩個LSTM基線進行比較。在第一個LSTM模型中,采用11幀的特征窗口(10個過去幀和1個當前幀)來估計目標的一幀(見圖3)。換句話說,11幀的特征向量被串聯成一個長向量,作為每個時間步長的網絡輸入。然而,在第二個LSTM模型中,沒有利用特征窗口。我們把第一個LSTM模型稱為LSTM-1,第二個稱為LSTM-2。從輸入層到輸出層,LSTM-1分別有11×161、1024、1024、1024和161個單元;LSTM-2分別有161、1024、1024、1024、1024和161個單元。兩個基線都不使用未來信息,相當於因果系統。
3 實驗
3.1 實驗步驟
在我們的實驗中,我們在WSJ0 SI84訓練集[22]上評估模型,包括來自83個說話人(42個男性和41個女性)的7138句話。在這些說話者中,有6名說話者(3名男性和3名女性)被視為未經訓練的說話者。因此,我們用剩下的77個說話者來訓練模型。為了獲得不受噪音影響的模型,我們從一個聲音效果庫(可在https://www.sound-ideas.com)中使用10 000個噪音進行訓練,持續時間約為126小時。對於測試,我們使用Auditec CD(可在http://www.auditec.com)中的兩個具有挑戰性的噪音(咿呀和食堂)。
圖3:具有11幀(10個過去幀和1個當前幀)特征窗口的LSTM基線。在每個時間步,11個輸入幀連接到一個特征向量
我們創建了一個包括320 000個混合物的訓練集,總時長約為500小時。具體來說,我們將一個隨機選擇的訓練語料與10 000個訓練噪聲中的一個隨機切口混合,信噪比(SNR)從{-5, -4, -3, -2, -1, 0}dB中隨機選擇。為了研究模型的說話人通用性,我們用6個訓練過的說話人(3個男性和3個女性)和6個未訓練過的說話人分別為每個噪音創建兩個測試集。一個測試集包括150個混合物,由6個訓練有素的說話人的25×6個語料創建,而另一個包括150個混合物,由6個未訓練過的說話人的25×6個語料創建。請注意,所有的測試語料都被排除在訓練集之外。我們對測試集使用兩種信噪比,即-5和-2dB。所有信號的采樣頻率為16kHz。
這些模型是用Adam優化器[23]訓練的。我們設定學習率為0.0002。平均平方誤差(MSE)作為目標函數。我們使用16個mini-batch的大小來訓練模型。所有的訓練樣本都填充了0,使其具有與最長樣本相同的時間步長。通過交叉驗證選擇最佳模型。
3.2 實驗結果
在本研究中,我們使用STOI和語音質量感知評價(PESQ)[24]作為評價指標。表2和表3分別列出了受過訓練的說話人和未受過訓練的說話人的未處理和已處理信號的STOI和PESQ分數。在每一種情況下,最好的結果都用黑體字的數字來表示。如表2和表3所示,LSTM-1和LSTM-2對受訓者和未受訓者的STOI和PESQ得分相似,這意味着在LSTM-1中使用特征窗並不能提高性能。另一方面,我們提出的CRN在這兩個指標上都一直優於LSTM基線。例如,在信噪比為-5 dB時,CRN比LSTM模型提高了約2%的STOI和約0.1的PESQ。對比表2和表3的結果,我們可以發現,CRN對未經訓練的說話者有很好的概括作用。在最具挑戰性的情況下,未經訓練的說話人的語料與兩個未經訓練的噪音在-5dB的位置混合,CRN比未經處理的混合物產生18.56%的STOI改進和0.55的PESQ改進。
圖 4:LSTM-1、LSTM-2 和 CRN 在訓練集和測試集上的訓練時期的均方誤差
所有模型都使用由六個未經訓練的說話者組成的測試集對未經訓練的胡言亂語進行評估
CRN利用了批量歸一化的優勢,它可以很容易地用於卷積操作,以加速訓練和提高性能。圖4比較了不同模型在訓練歷時中的訓練和測試MSEs,其中模型是在6個未訓練的說話人的測試集上評估的。 我們觀察到,與兩個LSTM模型相比,CRN收斂得更快,並取得更低的MSEs。此外,CRN的可訓練參數比LSTM模型少,如圖5所示。這主要是由於在卷積中使用了共享權重。由於參數效率較高,CRN比LSTM更容易訓練。
此外,CRN中的因果卷積能捕捉到輸入STFT幅度譜中的局部空間模式,而不使用未來信息。相比之下,LSTM模型將每個輸入幀作為一個扁平化的特征向量,不能充分地利用STFT幅度譜中的T-F結構。另一方面,CRN中的LSTM層對潛在空間中的時間依賴性進行建模,這對獨立於說話人的語音增強中的說話人特征非常重要。
4 結論
在這項研究中,我們提出了一個卷積遞歸網絡來處理實時應用中與噪音和說話人無關的語音增強。所提出的模型導致了一個因果語音增強系統,其中沒有利用未來信息。評估結果表明,就STOI和PESQ分數而言,擬議的CRN在訓練過的和未訓練過的說話者方面都一直優於兩個強LSTM基線。此外,我們發現,CRN的可訓練參數比LSTM少。我們相信所提出的模型代表了現實世界應用中的一種強大的語音增強方法,其中理想的屬性通常包括在線操作、單通道操作以及與噪音和說話人無關的模型。
參考文獻
[1] D. L. Wang and J. Chen, Supervised speech separation based on deep learning: an overview, arXiv preprint arXiv:1708.07524, 2017.
[2] J. Agnew and J. M. Thornton, Just noticeable and objectionable group delays in digital hearing aids, Journal of the American Academy of Audiology, vol. 11, no. 6, pp. 330 336, 2000.
[3] D. L. Wang and G. J. Brown, Eds. , Computational auditory scene analysis: Principles, algorithms, and applications. Wiley-IEEE press, 2006.
[4] Y. Wang and D. L. Wang, Towards scaling up classificationbased speech separation, IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 7, pp. 1381 1390, 2013.
[5] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 22, no. 12, pp. 1849 1858, 2014.
[6] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal processing letters, vol. 21, no. 1, pp. 65 68, 2014.
[7] , A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 23, no. 1, pp. 7 19, 2015.
[8] J. Chen, Y. Wang, S. E. Yoho, D. L. Wang, and E. W. Healy, Large-scale training to increase speech intelligibility for hearingimpaired listeners in novel noises, The Journal of the Acoustical Society of America, vol. 139, no. 5, pp. 2604 2612, 2016.
[9] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, Proceedings of Interspeech, pp. 3314 3318, 2016.
[10] , Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.
[11] M. Kolbæk, Z.-H. Tan, and J. Jensen, Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 1, pp. 153 167, 2017.
[12] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125 2136, 2011.
[13] K. Tan, J. Chen, and D. L. Wang, Gated residual networks with dilated convolutions for supervised speech separation, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, to appear.
[14] Z. Zhang, Z. Sun, J. Liu, J. Chen, Z. Huo, and X. Zhang, Deep recurrent convolutional neural network: Improving performance for speech recognition, arXiv preprint arXiv:1611.07174, 2016.
[15] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl, N. H. Pontoppidan, and T. Virtanen, Low latency sound source separation using convolutional recurrent neural networks, in 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2017, pp. 71 75.
[16] V. Badrinarayanan, A. Handa, and R. Cipolla, Segnet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling, arXiv preprint arXiv:1505.07293, 2015.
[17] S. R. Park and J. Lee, A fully convolutional neural network for speech enhancement, arXiv preprint arXiv:1609.07132, 2016.
[18] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in International conference on machine learning, 2015, pp. 448 456.
[19] X. Glorot, A. Bordes, and Y. Bengio, Deep sparse rectifier neural networks, in Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, pp. 315 323.
[20] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (elus), arXiv preprint arXiv:1511.07289, 2015.
[21] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.
[22] D. B. Paul and J. M. Baker, The design for the wall street journalbased csr corpus, in Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992, pp. 357 362.
[23] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.
[24] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs, in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 2001, pp. 749 752.