論文地址:https://ieeexplore.ieee.org/abstract/document/9357975/
基於半盲源分離的非線性回聲消除
摘要:
當使用非線性自適應濾波器時,數值模型與實際非線性模型之間的不匹配是非線性聲回聲消除(NAEC)的一個挑戰。為了解決這一問題,我們提出了一種基於半盲源分離(SBSS)的有效方法,該方法對無記憶非線性進行基泛展開,然后將未知的非線性展開系數合並到回聲路徑中。將遠端輸入信號的所有基函數視為已知的等效參考信號,推導了一種基於約束比例自然梯度策略的SBSS更新算法。與常用的自適應算法不同,該算法基於近端信號與參考信號之間的獨立性,對數值模型與實際模型之間的非線性不匹配不敏感。仿真和實際捕獲數據的實驗結果驗證了該方法在NAEC中的有效性。
關鍵字:約束尺度自然梯度,非線性聲學回聲消除,半盲源分離
1 引言
線性聲學回聲消除假設遠端輸入信號與回聲路徑線性卷積得到回聲信號,通常可以采用線性自適應濾波方法估計回聲路徑,消除回聲信號[1]-[3]。然而,非線性在實際應用中總是不可避免的,特別是在使用微型揚聲器的智能手機和筆記本電腦等便攜式設備中。因此,非線性聲學回聲消除(NAEC)具有更好的回聲消除性能。大量的模型被用來描述NAEC系統中的非線性,如WienerHammerstein[4]和Volterra[5]模型,多項式飽和[6]和神經網絡[7]。
無記憶非線性可以很好地模擬揚聲器[8]的非線性失真,其中回聲路徑可以分解為非線性模型的級聯結構和線性回聲路徑[9]-[10]。在[9]中,采用RLS算法學習有限脈沖響應濾波器的系數和預處理器中高達七階的多項式,學習率高。在[10]中提出了非線性級聯濾波器和雙線性濾波器等方法來補償非線性回聲。在[8]中提出了一種隱式聯合學習策略,將未知的多項式系數吸收到未知的回聲路徑中,形成了等效的時域多通道自適應結構,即功率濾波器。通過減小功率濾波器通道[8]、[11]之間的互相關,可以提高非線性回聲路徑的估計。在[12]中,采用Hammerstein模型來描述與線性房間脈沖響應連接的揚聲器的無記憶非線性,並提出了一種利用偽幅度平方相干函數來識別Hammerstein系統非線性的在線AEC算法。通過考慮無記憶非線性[13]的基泛展開,並將非線性展開系數吸收到未知的回聲路徑中,可將級聯觀測模型轉化為等效的線性多通道結構[14]。在[14]中,進一步利用多通道一階馬爾可夫模型建立多通道狀態空間模型,並在[15]卡爾曼濾波器的基礎上得到多通道狀態空間頻域自適應濾波器(MCSSFDAF)。該濾波器自適應速度快,性能優於最小均方(LMS)和遞歸最小二乘(RLS)自適應濾波器[1]。將[14]中提出的方法作為最先進的解決方案,進一步擴展並實現在麥克風陣列[16]中。
自適應濾波在很大程度上取決於數值非線性模型的准確性,因為自適應濾波的本質是識別揚聲器激勵和麥克風捕獲信號之間的傳遞函數。數值模型與實際非線性模型的不匹配將對系統產生不利影響,並可能導致系統性能惡化。半盲源分離(SBSS)源於盲源分離(BSS)[17],也可用於AEC的[18]-[20]。SBSS方法在[21]中首次提出,並在[18]中成功實現了多通道BSS和單通道AEC在頻域的結合。隨后在[19]和[20]中表明,BSS和多通道AEC可以有效地結合,從而產生沒有雙話檢測的SBSS。SBSS也被證明能夠估計雙說話[22]-[24]的回聲路徑。基於獨立半盲信號源分離的非線性聲回聲消除算法通常是基於獨立半盲信號源分離的非線性聲回聲消除算法。理論上對數值和實際傳遞函數之間的不匹配不太敏感。然而,現有的SBSS是用來解決線性AEC問題的,不能直接應用於NAEC系統。
在本文中,我們將SBSS與一個非線性模型相結合,旨在提高NAEC在實際應用中非線性模型偏離實際模型的性能。首先對參考信號進行無記憶非線性[13]-[14]的基泛展開,並將擴展系數合並到回聲路徑中。將遠端輸入信號的每個基函數視為已知的等效參考信號,采用約束比例自然梯度策略[20],[25]設計更新過程。
2 NAEC的SBSS模型

圖1 在無記憶非線性存在的NAEC的SBSS模型
NAEC系統的SBSS模型如圖1所示。揚聲器的非線性模型為無記憶非線性函數\(f(·)\),它將時間指數為t的遠端輸入信號\(x(t)\)轉換為非線性映射的輸入信號\(f(x(t))\)。信號\(f(x(t))\)與回聲路徑\(h(t)\)線性卷積,得到回聲信號\(d(t)\)。將近端信號\(s(t)\)疊加到回聲信號\(d(t)\)上,得到麥克風信號\(y(t)\)為
在實際應用中,實際的非線性模型是未知的,非線性映射輸入信號\(f(x(t))\)的基泛展開通常被用作[13]-[14]
其中\(\phi_{i}(\cdot)\)為第i階基函數,\(a_{i}\)為對應系數,\(p\)為展開階。將(2)代入(1):
將膨脹系數\(a_{i}\)合並到回聲路徑\(h(t)\)中,(3)可以表示為
其中\(h_{i}^{\prime}(t)\)表示\(i\)階基函數對應的回聲路徑為:
利用短時傅里葉變換(STFT),可以得到(4)的頻域表示為:
其中\(Y(k, n), H_{i}(k, n), X_{i}(k, n)\), 和 \(S(k, n)\)分別是\(y(t), h_{i}^{\prime}(t), \phi_{1}(x(t))\), 和 \(s(t)\)的頻域表示,其頻率指標為\(k\),框架指標為\(n\)。將\(X_{i}(k, n)\) with \(Y(k, n)\) 和 \(S(k, n)\)分別組合成向量形式為:
則(6)的矩陣形式可以表示為
式中,\(\mathbf{H}(k, n)\)為大小為\((p+1) \times(p+1)\)的混合矩陣,分塊公式為
設\(\mathbf{0}_{p \times 1}\)為大小為\(p×1\)的零向量,\(\mathbf{I}_{p}\)為大小為\(p \times p\)的單位矩陣, \(\mathbf{h}(k, n)\)為大小為\(p \times 1\)的混合向量
由於\(x(t)\)是已知的輸入信號,因此\(\phi_{1}(x(t))\) 和 \(X_{i}(k, n)\)也是已知的。以\(X_{i}(k, n)\)為參考信號,利用SBSS方法提取未知近端信號\(S(k, n)\)。分解過程描述為:
其中\(\mathrm{e}(k, n)\)為大小為\((p+1) \times 1\)的估計向量,\(\mathbf{W}(k,n)\)為大小為\((p+1) \times(p+1)\)的分解矩陣
其中\(E(k, n)\)為近端信號\(S(k, n)\)的估計,\(\mathbf{w}(k, n)\)為大小為\(p \times 1\)的解混向量。
有人可能會說所有的\(X_{l}(k, n)\)都是從同一個參考信號\(x(t)\)變換而來的;因此它們不滿足獨立假設,而獨立假設是BSS方法的基礎。然而,對於NAEC中使用的SBSS,近端信號獨立於參考信號,混合和分解矩陣都受到約束,因此近端信號仍然可以有效地恢復。在多通道AEC[20]中,已經驗證了具有線性相關參考信號的SBSS的可行性。
3 在線SBSS算法
采用獨立分量分析(ICA)和獨立矢量分析(IVA)[26]、[27]常用的自然梯度在線SBSS算法對(12)中的分解矩陣進行優化。根據IVA中類似的推導,\(\mathbf{W}(k, n)\)的更新規則為:
其中,\(\eta\)為學習率,\((\cdot)^{H}\)為厄米特轉置,非線性函數\(\Phi(\cdot)\)為多元評分函數。該多元評分函數的典型形式來自於[26]中依賴的多元超高斯分布:
其中\(e_{j}(k, n)\)表示向量\(\mathrm{e}(k, n)\)的第\(j\)個元素,\(k\)為頻率點的個數。為了在保持(14)分解矩陣約束結構的同時獲得穩定的算法,我們進一步使用約束比例自然梯度策略[20],[25],更新方程表示為:
其中\(\Delta \mathbf{W}(k, n)\)是更新的\(\mathbf{W}(k, n)\), \(\mathbf{O}_{p \times(p+1)}\)代表一個零矩陣的大小\(p \times(p+1)\), \(\Delta \mathbf{W}_{2: p+1,:}(k, n)\)代表由矩陣\(\Delta \mathbf{W}(k, n)\)的第2到第\((p+1)\)行組成的矩陣, \(\mathbf{W}_{1,(k, n+1)}\)代表矩陣\(\mathbf{W}(k, n+1)\)的第一行, \(\mathbf{W}_{1,1}(k, n+1)\)代表矩陣\(\mathbf{W}(k, n+1)\)元素的第一行和第一列, \(\mathbf{W}_{2: p+1,2 \cdot p+1}(k, n+1)\)代表矩陣\(\mathbf{W}(k, n+1)\)右下角\(p \times p\)大小的一個方陣,\(d(k, n)\)和\(c(k, n)\)的縮放因子,計算在[25]。
該算法基於近端信號與參考信號之間的獨立性。因此,它對數值模型與實際模型之間的非線性不匹配不敏感。
4 實驗和仿真
為了驗證該算法的有效性,我們使用仿真數據和真實捕獲數據,比較了SBSS算法和基於子矩陣對角MCSSFDAF (SD-MCSSFDAF)[14]的最先進NAEC算法的性能。可在網上找到示例音頻樣本https://github.com/ChengGuoliang0/audio-samples
A 仿真
我們考慮兩種類型的非線性映射來模擬無記憶揚聲器的非線性:硬剪切[9]和軟飽和[6]。硬剪切模型表示為:
其中,\(x_{\max }\)是剪切閾值。軟飽和度模型表示為:
其中\(\rho\)是一個非自適應形狀參數。
算法的實現考慮了匹配條件和不匹配條件。在匹配條件下,算法采用了與實際模型和數值模型相同的非線性。在不匹配條件下,利用奇數冪級數[14]作為(2)中的基函數\(\phi_{i}(\cdot)\),描述為:
在所有的仿真和實驗中,兩種算法的非線性展開階均設為\(p = 3\)。
(1)單講情況
將10秒長的語音信號作為遠端輸入信號\(x(t)\),利用這兩個非線性映射進行失真,生成麥克風信號\(y(t)\),並利用高斯白噪聲\(s(t)\)表示單音情況下的背景噪聲。我們使用信失真比(SDR)來量化非線性程度,定義為\(10 \log _{10}\left\{\mathrm{E}\left[x^{2}(t)\right] / \mathrm{E}\left[(f(x(t))-x(t))^{2}\right]\right\}\) [14],並設置為5 dB。回聲近端信號功率比(ESR)設為ESR = 60 dB,定義為\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[s^{2}(t)\right]\right\}\) [14]。回聲路徑為圖像法[28]產生的房間脈沖響應,采樣率為16 kHz,混響時間為0.2 s。SBSS算法的學習率\(\eta\)設為0.1。SD-MCSSFDAF算法的參數設置為[14]。性能由回聲損耗增強(ERLE)來衡量,定義為\(10 \log _{10}\left\{\mathrm{E}\left[y^{2}(t)\right] / \mathrm{E}\left[e^{2}(t)\right]\right\}\)[14]。兩種非線性情況下的ERLE結果如圖2所示。可以看出,在非線性完全匹配的情況下,SD-MCSSFDAF算法收斂后的性能明顯優於SBSS算法。然而,當利用(25)中的基函數時,由於非線性失配的影響,SDMCSSFDAF算法的性能明顯下降,所提出的非線性SBSS方法的優勢顯而易見。

圖2 ERLE會產生匹配和不匹配的條件。(a)硬剪裁。(b)軟飽和。
(1)雙講情況
利用SDR = 5 dB的兩個非線性映射,對遠端語音信號\(x(t)\)再次進行了失真處理。將近端信號\(s(t)\)與回聲信號\(d(t)\)疊加,得到ESR = 0 dB的麥克風信號\(y(t)\)。近端信號\(s(t)\)也是一個10 s長的語音信號。雙講情況下只考慮更實際的不匹配條件,性能由真ERLE (tERLE)度量,定義為\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[(e(t)-s(t))^{2}\right]\right\}\)[20]。此外,還采用感知語音質量評價(PESQ)[29]和短時客觀可理解性(STOI)[30]-[31]作為評價近端信號語音質量的客觀指標。兩種非線性映射的tERLE結果如圖3所示,近端語音質量評價結果如表1所示,從中可以看出本文方法的有效性。
表1 近端語音質量評價結果


圖3 tERLE的結果是不匹配的條件。(1)硬剪裁。(b)飽和度較低
B 真實實驗
我們還評估了提出的SBSS算法的性能使用真實捕獲的數據。微型揚聲器發出的語音信號,不可避免地包含未知非線性,由一個信噪比(SNR)約為20 dB的麥克風記錄下來。信號長度為10 s,采樣率為16 kHz。圖4顯示了單對話情況下的ERLE結果。顯然,在這種不匹配條件下,SBSS算法的ERLE性能優於SD-MCSSFDAF算法。在雙講情況下,使用一個10秒長的語音信號作為近端信號,並調整音量,以達到0 dB的ESR。tERLE結果和近端語音質量評價結果分別如圖5和表2所示。由此可見,SBSS算法不僅在雙講條件下實現了更多的回聲消除,而且具有更好的近端語音質量。
表2 使用真實數據的近端語音質量評價結果


圖4 ERLE結果的真實數據為單講的情況。

圖5 tERLE結果的真實數據的雙講情況。
5 結論
在本文中,我們提出了一種新的基於SBSS的NAEC算法。我們將基函數的非線性展開系數合並到回聲路徑中。將遠端輸入信號的所有基函數視為已知的等效參考信號,利用約束比例自然梯度策略導出了一種在線SBSS算法。與基於自適應濾波的NAEC算法相比,基於近端信號和參考信號之間的獨立性的SBSS算法對數值模型和實際模型之間非線性不匹配的敏感性較低。兩類非線性映射的仿真和真實捕獲數據的實驗驗證了所提出的SBSS算法在數值非線性模型與實際模型不匹配的情況下取得了更好的回聲消除性能。
6 參考文獻
[1] E. Hänsler and G. Schmidt, Acoustic Echo and Noise Control: A Practical Approach. Hoboken, NJ, USA: Wiley, 2004.
[2] H. Zhao, Y. Yu, S. Gao, X. Zeng and Z. He, “Memory proportionate APA with individual activation factors for acoustic echo cancellation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 6, pp. 1047–1055, Jun. 2014.
[3] W. Fan, K. Chen, J. Lu and J. Tao, “Effective improvement of undermodeling frequency-domain Kalman filter,” IEEE Signal Process. Lett., vol. 26, no. 2, pp. 342–346, Feb. 2019.
[4] M. Zeller and W. Kellermann, “Coefficient pruning for higher-order diagonals of Volterra filters representing Wiener-Hammerstein models,” in Proc. Int. Workshop, Acoust. Echo, Noise Control, Seattle, WA, Sep. 2008.
[5] M. Zeller and W. Kellermann, “Fast and robust adaptation of DFTdomain Volterra filters in diagonal coordinates using iterated coefficient updates,” IEEE Trans. Signal Process., vol. 58, no. 3, pp. 1589–1604, Mar. 2010.
[6] B. S. Nollett and D. L. Jones, “Nonlinear echo cancellation for hands-free speakerphones,” in Proc. IEEE Workshop, Nonlinear Signal, Image Process., Mackinac Island, MI, Sep. 1997.
[7] A. N. Birkett and R. A. Goubran, “Acoustic echo cancellation using NLMS-neural network structures,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Detroit, MI, May 1995, vol. 5, pp. 3035–3038.
[8] F. Küch, A. Mitnacht, and W. Kellermann, “Nonlinear acoustic echo cancellation using adaptive orthogonalized power filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Philadelphia, PA, Mar. 2005, vol. 3, pp. 105–108.
[9] A. Stenger and W. Kellermann, “Adaptation of a memoryless preprocessor for nonlinear acoustic echo cancelling,” Signal Process., vol. 80, no. 9, pp. 1747–1760, Sep. 2000.
[10] J. P. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Hong Kong, China, Apr. 2003, vol. 5, pp. 389–392.
[11] F. Kuech and W. Kellermann, “Orthogonalized power filters for nonlinear acoustic echo cancellation,” Signal Process., vol. 86, no. 6, pp. 1168–1181, Jun. 2006.
[12] K. Shi, X. Ma, and G. T. Zhou, “Acoustic echo cancellation using a pseudocoherence function in the presence of memoryless nonlinearity,” IEEE Trans. Circuits Syst. I, vol. 55, no. 9, pp. 2639–2649, Oct. 2008.
[13] S. Malik and G. Enzner, “Fourier expansion of Hammerstein models for nonlinear acoustic system identification,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Prague, CZ, May 2011, pp. 85–88.
[14] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 7, pp. 2065–2079, Sep. 2012.
[15] G. Enzner and P. Vary, “Frequency-domain adaptive Kalman filter for acoustic echo control in hands-free telephones,” Signal Process., vol. 86, no. 6, pp. 1140–1156, Jun. 2006.
[16] J. Park and J. Chang, “State-space microphone array nonlinear acoustic echo cancellation using multi-microphone near-end speech covariance,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 10, pp. 1520–1534, Oct. 2019.
[17] J. F. Cardoso, “Blind signal separation: statistical principles,” Proceedings of the IEEE, vol. 86, no. 10, pp. 2009–2025, Oct. 1998.
[18] S. Miyabe, T. Takatani, H. Saruwatari, K. Shikano, and Y. Tatekura, “Barge-in and noise-free spoken dialogue interface based on sound field control and semi-blind source separation,” in Proc. Eur. Signal Process. Conf., Florence, Italy, Sep. 2007, pp. 232–236.
[19] T. S. Wada, S. Miyabe, and B. H. Juang, “Use of decorrelation procedure for source and echo suppression,” in Proc. IWAENC, Seattle, WA, Sep. 2008.
[20] F. Nesta, T. S. Wada, and B. H. Juang, “Batch-online semi-blind sourceseparation applied to multi-channel acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 3, pp. 583–599, Mar. 2011.
[21] M. Joho, H. Mathis, and G. S. Moschytz, “Combined blind/nonblind source separation based on the natural gradient,” IEEE Signal Process. Lett., vol. 8, no. 8, pp. 236–238, Aug. 2001.
[22] J. Gunther, “Learning echo paths during continuous double-talk using semi-blind source separation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 2, pp. 646–660, Feb. 2012.
[23] Z. Koldovský, J. Málek, M. Müller, and P. Tichavský, “On semi-blind estimation of echo paths during double-talk based on nonstationarity,” in Proc. IWAENC, Juan-les-Pins, France, 2014, pp. 198–202.
[24] J. Gunther and T. Moon, “Blind acoustic echo cancellation without double-talk detection,” in Proc. IEEE Workshop Appl. Signal Process. Audio Acoust., New Paltz, NY, USA, Oct. 2015, pp. 1–5.
[25] S. Douglas and M. Gupta, “Scaled natural gradient algorithms for instantaneous and convolutive blind source separation,” in Proc. ICASSP, Apr. 2007, vol. II, pp. 637–640.
[26] T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, Jan. 2007.
[27] T. Kim, “Real-time independent vector analysis for convolutive blind source separation,” IEEE Trans. on Circuit and systems, vol. 57, no. 7, pp. 1431–1438, Jul. 2010.
[28] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Amer., vol. 65, no. 4, pp. 943–950, Apr. 1979.
[29] ITU-T, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. 862, International Telecommunications Union, 2000.
[30] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “A short-time objective intelligibility measure for time-frequency weighted noisy speech,” in ICASSP, Dallas, TX, USA, Mar. 2010, pp. 4214–4217.
[31] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125–2136, Sep. 2011.