論文翻譯:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios


論文地址:深度學習用於噪音和雙講場景下的回聲消除

博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html


摘要

  傳統的聲學回聲消除(AEC)通過使用自適應算法識別聲學脈沖響應來工作。 我們將AEC公式化為有監督的語音分離問題,該問題將說話人信號和近端信號分開,以便僅將后者傳輸到遠端。 訓練雙向長短時記憶的遞歸神經網絡(BLSTM)對從近端和遠端混合信號中提取的特征進行估計。然后應用BLSTM估計的理想比率掩模來分離和抑制遠端信號,從而去除回波。實驗結果表明,該方法在雙向通話,背景噪聲和非線性失真情況下回波去除的有效性。 另外,所提出的方法可以推廣到未經訓練的說話者。

1  引言

  當揚聲器和麥克風在通信系統中耦合,從而使麥克風拾取揚聲器信號及其混響時,就會產生回聲。 如果處理不當,則位於系統遠端的用戶會聽到自己的聲音,該聲音會由於系統的往返時間而延遲(即回聲),並與來自近端的目標信號混合在一起。 回聲是語音和信號處理應用程序(例如電話會議,免提電話和移動通信)中最煩人的問題之一。 通常,通過使用有限沖激響應(FIR)濾波器[1]自適應地識別揚聲器和麥克風之間的聲學沖激響應來實現回聲消除。 文獻[1] [2]中提出了幾種自適應算法。 其中歸一化最小均方(NLMS)算法家族[3]由於其相對魯棒的性能和低復雜度而得到了最廣泛的應用。

  雙向通話是通信系統中固有的,因為當雙方的揚聲器同時通話時,雙向通話是典型的通話。 然而,近端語音信號的存在嚴重降低了自適應算法的收斂性,並可能導致它們發散[1]。 解決此問題的標准方法是使用雙向通話檢測器(DTD)[4] [5],它會在雙向通話期間禁止自適應。

  在麥克風處接收的信號不僅包含回聲和近端語音,還包含背景噪聲。 公認的是,僅AEC就無法抑制背景噪聲。 通常使用后置濾波器[6]來抑制背景噪聲和殘留在回聲消除器輸出端的回聲。 Ykhlef和Ykhlef [7]將自適應算法與基於短時頻譜衰減的噪聲抑制技術相結合,並在存在背景噪聲的情況下獲得了大量的回聲消除。

  文獻中的許多研究將回聲路徑建模為線性系統。但是,由於諸如功率放大器和揚聲器之類的組件的限制,在AEC的實際情況下,非線性失真可能會引入到遠端信號中。為了克服這個問題,一些工作[8]-[9]提出應用殘余回聲抑制(RES)來抑制由非線性失真引起的殘余回聲。由於深度學習具有對復雜的非線性關系進行建模的能力,因此它可以成為對AEC系統的非線性進行建模的有力選擇。 Malek和Koldovsk`y [10]將非線性系統建模為Hammerstein模型,並使用兩層前饋神經網絡和自適應濾波器來識別模型參數。最近,李等人。文獻[11]采用了深度神經網絡(DNN)來估計遠端信號和聲學回聲抑制(AES)輸出的RES增益[12],以消除回聲信號的非線性成分。

  AEC的最終目標是完全消除遠端信號和背景噪聲,以便僅將近端語音發送到遠端。 從語音分離的角度來看,AEC可以自然地視為分離問題,其中近端語音是要與麥克風錄音分離並發送到遠端的來源。 因此,代替估計聲回聲路徑,我們采用監督語音分離技術,以可訪問的遠端語音作為附加信息將近端語音從麥克風信號中分離出來[13]。 通過這種方法,無需執行任何雙向通話檢測或后置過濾即可解決AEC問題。

  深度學習已顯示出語音分離的巨大潛力[14] [15]。 遞歸神經網絡(RNN)建模時變函數的能力可以在解決AEC問題中發揮重要作用。 LSTM [16]是RNN的一種變體,旨在處理傳統RNN的消失和爆炸問題。 它可以對時間依賴性進行建模,並在嘈雜的條件下表現出良好的語音分離和語音增強性能[17] [18]。 在最近的研究中,Chen和Wang [19]使用LSTM來研究與噪聲無關的模型的說話人泛化,評估結果表明,LSTM模型比前饋DNN取得了更好的說話人泛化。

  在這項研究中,我們使用雙向LSTM(BLSTM)作為監督學習機,根據從混合信號以及遠端語音中提取的特征來預測理想比率掩碼(IRM)。 我們還研究了該方法的說話人概括。 實驗結果表明,該方法能夠在嘈雜,雙向通話和非線性失真情況下消除聲學回聲,並能很好地推廣到未經訓練的揚聲器。

  本文的其余部分安排如下。 第2節介紹了基於BLSTM的方法。 實驗結果在第3節中給出。第4節總結了論文。

2  提出的方法

2.1  問題公式化

  考慮傳統的聲學信號模型,如圖1所示,其中麥克風信號$y(n)$由回聲$d(n)$、近端信號$s(n)$和背景噪聲$v(n)$組成。

$$公式1:y(n)=d(n)+s(n)+v(n)$$

圖1 回聲場景示意圖

  回聲信號是由說話人信號與房間脈沖響應(RIR)卷積產生的。然后將回聲、近端語音和背景噪聲混合產生麥克風信號。我們將AEC定義為一個有監督的語音分離問題。如圖2所示,將麥克風信號和回聲提取的特征輸入到BLSTM中。將估計的mask與麥克風信號的譜圖逐點相乘,得到近端信號的估計譜圖。最后,利用短時間傅里葉反變換(ISTFT)將近端語音信號的相位與估計的幅度譜圖重新合成$s(n)$。

2.2  特征提取

  首先將輸入信號$y(n)$和$x(n)$以16khz采樣,以20ms幀長(320采樣點),10ms幀移進行分幀。然后將320點短時傅里葉變換(STFT)應用於輸入信號的每個時間幀,結果產生161個frequency bins。最后,對幅度響應進行對數運算,得到了對數幅度譜特征[20]。該方法將麥克風信號和遠端信號的特征串聯在一起作為輸入特征。因此,輸入的維數是161*2 = 322。

2.3  訓練目標

  我們使用理想比值掩膜(IRM)作為訓練目標。IRM定義為:

$$公式2:\operatorname{IRM}(m, c)=\sqrt{\frac{S^{2}(m, c)}{S^{2}(m, c)+D^{2}(m, c)+V^{2}(m, c)}}$$

其中,$S^2(·)、D^2(·)、V^2(·)$表示T-F單元內近端信號、聲學回聲和背景噪聲在m時刻和c頻率的能量。

2.4  模型介紹

   本文采用的BLSTM結構如圖2所示。一個BLSTM包含兩個單向LSTM,一個LSTM對信號進行正向處理,另一個lstm對信號進行反向處理。采用全連接層進行特征提取。BLSTM有4個隱藏層,每層有300個單位。輸出層是一個全連接的層。由於IRM的取值范圍為[0,1],所以我們使用sigmoid函數作為輸出層的激活函數。采用Adam優化器[21]和均方誤差(MSE)代價函數對LSTM進行訓練。學習速率設置為0.0003。訓練epoch設置為30。

3  實驗結果

3.1  性能度量

  本文采用兩種性能指標來比較系統的性能:單端通話時期(無近端信號周期)的回波損耗增強(ERLE)和雙端通話時期的語音質量感知評價(PESQ)。

ERLE[3]用於評估系統實現的回波衰減,定義為

$$公式3:\mathrm{ERLE}=10 \log _{10}\left\{\frac{\mathcal{E}\left[y^{2}(n)\right]}{\mathcal{E}\left[\hat{s}^{2}(n)\right]}\right\}$$

其中$\varepsilon $是統計期望操作。

  PESQ與主觀得分[22]高度相關。它是通過將估計的近端語音$\hat{n}$與原始語音s(n)進行比較得到的。PESQ評分范圍為-0.5 ~ 4.5。分數越高質量越好。

  在接下來的實驗中,對信號處理約3秒后,即穩態結果,對傳統AEC方法的性能進行測量。

3.2  實驗設置

  TIMIT數據集[23]在文獻[24][5]中被廣泛用於評價AEC性能。我們從TIMIT數據集的630個說話人中隨機選擇100對說話人作為近端和遠端說話人(40對男性-女性,30對男性-男性,30對女性-女性)。每個說話人有10個以16khz采樣的語音。隨機選擇同一遠端說話人的三個語音,並將其串聯起來形成遠端信號。然后,通過在前端和后端填充零,將近端說話人的每個語音擴展到與遠端信號相同的大小。稍后將在圖3中顯示如何生成混合的示例。

  TIMIT每個說話人錄有10段語音,其中七段語音被用來生成訓練遠端語音(有五個組合{012}、{013}、{014}、{015}、{016}),剩余三段被用來生成測試遠端語音({789})。訓練混合語音由 每個近端語音 和 五個不同的遠端信號 混合而成,因此,我們總共有3500種訓練混合語音。測試混合語音是由每個近端信號與一個遠端信號混合而成,有100種。

  為了研究該方法的泛化效果,我們從TIMIT數據集中的其余430位說話人中隨機選擇了另外10對說話人(4對男女,3對男女,3對男女),並生成了100個未經訓練的說話人測試混合語音。

 圖3:3.5 dB SER和10 dB SNR的波形和頻譜圖。(a) 麥克風信號,(b)回聲信號,(c)近端語音,(d)BLSTM估計的近端語音。

  使用image方法[25],在混響(reverberation)時間(T60)為 0.2 s 時產生室內脈沖響應。RIR的長度設置為512。模擬室尺寸為(4,4,3)m,麥克風固定在(2,2,1.5)m處,揚聲器隨機放置在7處,距離麥克風1.5 m。因此,生成7個不同位置的RIRs,其中前6個RIRs用於生成訓練混合語音,最后一個RIRs用於生成測試混合語音。

3.3  雙方通話情況下的表現

  首先,我們評估了該方法在雙端通話的情況下,並與傳統的NLMS算法進行了比較。每個訓練遠端語音$x(n)$與從6個RIR中隨機選擇的RIR卷積以產回聲信號$d(n)$。然后從{6,3,0,3,6}dB中隨機選擇signal-to-echo ratio (SER)將遠端回聲語音$d(n)$與近端語音$s(n)$混合。這里的SER level是在雙講通話時候評估的。定義為

$$公式4:\mathrm{SER}=10 \log _{10}\left\{\frac{\mathcal{E}\left[s^{2}(n)\right]}{\mathcal{E}\left[d^{2}(n)\right]}\right\}$$

  由於回聲路徑是固定的,並且沒有背景噪聲或非線性失真,因此在這種情況下,結合Geigel DTD [4]的著名NLMS算法可以很好地工作。 NLMS的過濾器大小設置為512,與模擬RIR的長度相同。 NLMS算法[1]的步長和正則化因子分別設置為0.2和0.06。 Geigel DTD的閾值設置為2。

  表1顯示了這兩種方法在不同SER條件下的平均ERLE和PESQ值,其中,將麥克風信號$y(n)$與麥克風中的近端語音$s(n)$進行比較,得出None(或未處理的結果)的結果。 雙端通話時段。下表中的結果表明NLMS和BLSTM方法都能夠消除聲波回波。基於BLSTM的方法在ERLE方面優於NLMS,而NLMS的PESQ則優於BLSTM。

表1:雙端通話情況下的平均ERLE和PESQ值

表2:SNR為10 dB的雙向通話和背景噪聲情況下的平均ERLE和PESQ值

3.4  在雙向通話和背景噪音情況下的性能

  第二個實驗研究了雙端對話和背景噪聲的情景。由於單獨使用Geigel-DTD的NLMS無法處理背景噪聲,因此采用基於頻域后置濾波的AEC方法[7]來抑制AEC輸出的背景噪聲。

  同樣,每個訓練混合物都是在SER水平上從{6,3,0,3,6}dB中隨機選擇的。將白噪聲以從{8、10、12、14} dB中隨機選擇的SNR級別添加到麥克風信號這里的信噪比水平是根據雙端通話周期來評估的,定義為

$$公式5:\mathrm{SNR}=10 \log _{10}\left\{\frac{\mathcal{E}\left[s^{2}(n)\right]}{\mathcal{E}\left[v^{2}(n)\right]}\right\}$$

  表2顯示了NLMS,配備了后置濾波器的NLMS和基於BLSTM的方法在10 dB SNR級別的不同SER條件下的平均ERLE和PESQ值,如表2所示。在NLMS + 后置濾波情況下,NLMS算法的濾波器大小、步長和正則化因子分別設置為512、0.02和0.06。 Geigel DTD的閾值設置為2。后置濾波器的兩個遺忘因子設置為0.99。 從表中可以看出,與未處理的結果相比,所有這些方法在PESQ方面均顯示出改進。 在所有條件下,BLSTM均優於其他兩種方法。 另外,通過比較表1和表2,我們發現將背景噪聲添加到麥克風信號會嚴重影響NLMS的性能。 在這種情況下,后置過濾器可以提高NLMS的性能。

3.5  在雙端通話、背景噪聲和非線性失真情況下的性能

  第三個實驗評估了基於BLSTM的方法在通話雙方,背景噪聲和非線性失真情況下的性能。 通過以下兩個步驟處理遠端信號,以模擬功率放大器和揚聲器引入的非線性失真。

首先,將clip [26]應用於遠端信號,以模擬功率放大器的特性

$$公式6:x_{\text {hard }}(n)=\left\{\begin{array}{cc}
-x_{\max } & x(n)<-x_{\max } \\
x(n) & |x(n)| \leq x_{\max } \\
x_{\max } & x(n)>x_{\max }
\end{array}\right.$$

其中$x_{max}$設置為輸入信號最大音量的80%。

  然后應用無記憶的sigmoidal函數[27]來模擬揚聲器的非線性特性:

$$公式7:x_{\mathrm{NL}}(n)=\gamma\left(\frac{2}{1+\exp (-a \cdot b(n))}-1\right)$$

其中

$$公式8:b(n)=1.5 \times x_{\mathrm{hard}}(n)-0.3 \times x_{\mathrm{hard}}^{2}(n)$$

將Sigmoid增益設置為4。如果$b(n)> 0$,則將 sigmoid 斜率$a$設置為4,否則將其設置為0.5。

  對於每種訓練混合物,對x(n)進行處理以獲得xNL(n),然后將此非線性處理的遠端信號與從6個RIR中隨機選擇的RIR卷積,以生成回波信號d(n)。 SER設置為3.5 dB,白噪聲以10 dB SNR的水平添加到混合物中。

  圖3說明了使用基於BLSTM的方法的回聲消除示例。 可以看出,基於BLSTM的方法的輸出類似於干凈的近端信號,這表明該方法可以很好地保留近端信號,同時抑制背景噪聲和非線性失真的回聲。

  我們將提出的BLSTM方法與基於DNN的殘余回聲抑制(RES)進行了比較[11],結果如表3所示。在我們實現AES + DNN的過程中,AES和DNN的參數設置為[ 11]。 SNR = 1的情況,這是在[11]中評估的情況,表明基於DNN的RES可以處理回波的非線性分量並提高AES的性能。 當涉及到背景噪聲的情況時,將基於DNN的RES添加到AES在PESQ值方面顯示出較小的改進。 僅基於BLSTM的方法就勝過AES + DNN.ERLE方面提高了約5.4 dB,PESQ方面提高了0.5 dB。 如果我們遵循[11]中提出的方法,並將AES作為預處理器添加到BLSTM系統中,即AES + BLSTM,則可以進一步提高性能。 此外,從表3中可以看出,所提出的BLSTM方法可以推廣到未經訓練的說話者。

表3:在3.5 dB SER的雙向通話,背景噪聲和非線性失真情況下的平均ERLE和PESQ值,SNR = $\infty $表示無背景噪聲

4  總結

  提出了一種基於BLSTM的有監督聲回聲消除方法,以解決雙向通話,背景噪聲和非線性失真的情況。 所提出的方法顯示了其消除聲學回聲並將其推廣到未經訓練的揚聲器的能力。 未來的工作將將該方法用於解決其他AEC問題,例如多通道通信。

6  參考文獻

[1] J. Benesty, T. G ansler, D. R. Morgan, M. M. Sondhi, S. L. Gay et al., Advances in network and acoustic echo cancellation. Springer, 2001.

[2] J. Benesty, C. Paleologu, T. G ansler, and S. Ciochin a, A perspective on stereophonic acoustic echo cancellation. Springer Science &amp; Business Media, 2011, vol. 4.

[3] G. Enzner, H. Buchner, A. Favrot, and F. Kuech, Acoustic echo control, in Academic Press Library in Signal Processing. Elsevier, 2014, vol. 4, pp. 807 877.

[4] D. Duttweiler, A twelve-channel digital echo canceler, IEEE Transactions on Communications, vol. 26, no. 5, pp. 647 653, 1978.

[5] M. Hamidia and A. Amrouche, A new robust double-talk detector based on the stockwell transform for acoustic echo cancellation, Digital Signal Processing, vol. 60, pp. 99 112, 2017.

[6] V. Turbin, A. Gilloire, and P. Scalart, Comparison of three post-filtering algorithms for residual acoustic echo reduction, in Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on, vol. 1. IEEE, 1997, pp. 307 310.

[7] F. Ykhlef and H. Ykhlef, A post-filter for acoustic echo cancellation in frequency domain, in Complex Systems (WCCS), 2014 Second World Conference on. IEEE, 2014, pp. 446 450.

[8] F. Kuech and W. Kellermann, Nonlinear residual echo suppression using a power filter model of the acoustic echo path, in Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on, vol. 1. IEEE, 2007, pp. 73 76.

[9] A. Schwarz, C. Hofmann, and W. Kellermann, Spectral featurebased nonlinear residual echo suppression, in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on. IEEE, 2013, pp. 1 4.

[10] J. Malek and Z. Koldovsk`y, Hammerstein model-based nonlinear echo cancellation using a cascade of neural network and adaptive linear filter, in Acoustic Signal Enhancement (IWAENC), 2016 IEEE International Workshop on. IEEE, 2016, pp. 1 5.

[11] C. M. Lee, J. W. Shin, and N. S. Kim, Dnn-based residual echo suppression, in Sixteenth Annual Conference of the International Speech Communication Association, 2015.

[12] F. Yang, M. Wu, and J. Yang, Stereophonic acoustic echo suppression based on wiener filter in the short-time fourier transform domain, IEEE Signal Processing Letters, vol. 19, no. 4, pp. 227 230, 2012.

[13] J. M. Portillo, Deep Learning applied to Acoustic Echo Cancellation, Master s thesis, Aalborg University, 2017.

[14] D. L. Wang and J. Chen, Supervised speech separation based on deep learning: an overview, arXiv preprint arXiv:1708.07524, 2017.

[15] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 22, no. 12, pp. 1849 1858, 2014.

[16] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.

[17] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks, in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015, pp. 708 712.

[18] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller, Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr, in International Conference on Latent Variable Analysis and Signal Separation. Springer, 2015, pp. 91 99.

[19] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[20] M. Delfarah and D. L. Wang, Features for maskingbased monaural speech separation in reverberant conditions, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 5, pp. 1085 1094, 2017.

[21] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.

[22] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs, in Acoustics, Speech, and Signal Processing, 2001. Proceedings.( ICASSP 01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 749 752.

[23] L. F. Lamel, R. H. Kassel, and S. Seneff, Speech database development: Design and analysis of the acoustic-phonetic corpus, in Speech Input/Output Assessment and Speech Databases, 1989.

[24] T. S. Wada, B.-H. Juang, and R. A. Sukkar, Measurement of the effects of nonlinearities on the network-based linear acoustic echo cancellation, in Signal Processing Conference, 2006 14th European. IEEE, 2006, pp. 1 5.

[25] J. B. Allen and D. A. Berkley, Image method for efficiently simulating small-room acoustics, The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943 950, 1979.

[26] S. Malik and G. Enzner, State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation, IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7, pp. 2065 2079, 2012.

[27] D. Comminiello, M. Scarpiniti, L. A. Azpicueta-Ruiz, J. Arenas- Garcia, and A. Uncini, Functional link adaptive filters for nonlinear acoustic echo cancellation, IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 7, pp. 1502 1512, 2013.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM