論文翻譯:2020_Residual Acoustic Echo Suppression Based On Efficient Multi-Task Convolutional Neural Network


論文地址:基於高效多任務卷積神經網絡的殘余聲回波抑制


摘要

  回聲會降低語音通信系統的用戶體驗,因此需要完全抑制。提出了一種利用卷積神經網絡實現實時殘余聲回波抑制的方法。在多任務學習的背景下,采用雙語音檢測器作為輔助任務來提高RAES的性能。該訓練准則基於一種新的損失函數,我們稱之為抑制損失,以平衡殘余回波的抑制和nearend信號的失真。實驗結果表明,該方法能有效抑制不同情況下的殘余回波。

關鍵詞:residual acoustic echo suppression, convolutional neural network, multi-task learning, suppression loss

1  引言

  在語音通信系統中,當麥克風與揚聲器處於一個封閉的空間中時,需要捕獲麥克風與揚聲器之間耦合產生的回聲信號,需要聲學回聲消除(AEC)。 傳統的AEC算法由兩部分組成:自適應線性濾波器(AF)[1]和非線性回波處理器(NLP)[2]。 AEC中存在許多挑戰,例如揚聲器引起的非線性特性,而且很難找到AF輸出與遠端信號之間的非線性關系。 換句話說,在AEC系統中,為了完全去除殘留的回聲,NLP極有可能對近端信號造成實質性的破壞。

  近年來,機器學習被引入到聲學回聲消除和抑制中。基於遠端信號及其非線性變換信號[3],采用兩層隱層的人工神經網絡對殘差回聲進行估計。用遠端信號和AF輸出信號訓練深度神經網絡(DNN)可以預測更准確的掩碼[4,5]。然而,由於相位信息的缺乏,在向神經網絡輸入幅度譜並估計輸出幅度譜掩碼時,很難在去除全部聲回波[6]的同時保留近端信號。然而,由於增加了更多的輸入特征,這樣的相位譜使得模型過於復雜,無法應用於大多數個人終端[7,8]。在最近的一項研究中,相位敏感權值被用來利用AF輸出和近端信號[9]之間的相位關系來修改掩模。

  在本文中,我們提出了一種新的殘余聲回聲抑制(RAES)方法,該方法采用一種高效的多任務卷積神經網絡(CNN),將遠端參考信號和AF輸出信號作為輸入,相敏掩模(PSM)作為目標。采用一種新的抑制損失來平衡殘差回聲抑制和近端信號保留之間的平衡。即使在傳統的AEC中,精確的雙語檢測器(DTD)也是必不可少的,本文還將雙語狀態的估計作為提高掩模預測精度的輔助任務。實驗結果表明,該方法在模擬和真實聲環境中都能有效抑制殘余回聲,顯著降低近端信號的失真。

  本文的其余部分組織如下。第二節介紹了傳統的AEC系統。本文第三節介紹了所提出的方法,第四節給出了比較的實驗結果。最后,第五部分是全文的總結。

2  AEC框架

  在AEC框架中,如圖1所示,麥克風接收到的信號$d(n)$由近端信號$s(n)$和回聲$y(n)$組成:

$$公式1:d(n)=s(n)+y(n)$$

AEC的目的是去除回波信號,同時保持近端信號的$\hat{s}(n)$。

  回聲$y(n)$包括兩部分:線性回聲(包括直接遠端信號及其反射信號)以及揚聲器引起的非線性回聲。AF模塊自適應估計線性回波$\hat{y}(n)$,並將其與麥克風信號$d(n)$相減,得到輸出信號$e(n)$。傳統的NLP從$e(n)$和$d(n)$計算抑制增益,進一步抑制殘留回波。然而,在雙端通話中使用這種方法時,近端信號極易受到嚴重的破壞。

3  提出的方法

3.1  特征提取

  AF模塊用於消除麥克風信號中的一部分線性回聲。 有很多方法可以實現線性AF算法。 從理論上講,所提出的RAES可以與任何標准AF算法一起使用,並且本文中使用了子帶歸一化最小均方(NLMS)算法。

  輸入特征包括如上所述的AF輸出誤差信號$e(n)$和遠端參考信號$u(n)$的對數譜。 我們使用短時間傅里葉變換(STFT)將$e(n)$和$u(n)$轉換到頻域,采用大小為K的平方根漢寧窗,因此,頻點的實際數量為K/2,丟棄直流bin。 我們將M幀串聯作為輸入特征,以提供更多的時間參考信息。 串聯的另一個優點是,它可以推動網絡學習回聲和遠端信號之間的延遲。

3.2 網絡框架

  本文網絡的主干是受MobileNetV2的啟發,其中大部分的全卷積操作被depthwise和pointwise卷積代替,以降低計算代價[10]。總體網絡架構如圖2所示,其中Conv()和Residual BottleNeck()()中的前三個參數分別為output channel、kernel size和stride size,如果沒有指定,默認的stride大小為1。FC是指具有輸入和輸出尺寸的全連接層。Residual BottleNeck()的詳細架構如圖2 (a)所示,其中residual connection融合了high-dimension和low-dimension特征。

  值得一提的是,在雙向通話(double talk)中進行mask(掩膜)預測是一項具有挑戰性的任務。通過4個Residual BottleNeck blocks提取特征后,我們在右分支中使用DTD預測任務,以減輕左掩模預測分支的負擔。因此,多任務學習可以使網絡更加關注雙向通話掩碼的預測,如果DTD任務檢測到single talk period(單說話周期),則可以很輕松地將掩碼(mask)設置為1或0。

 

a、Inverted Residual BottleNeck($C_{out}$, kernel, stride)

 

 

(b)總框架

圖2  提出K = 128時的網絡架構

3.2  訓練targets與損失

  理想振幅掩模(Ideal amplitude mask,IAM)在不考慮相位信息的情況下,常被用作語音增強和殘差回波抑制的訓練目標。在本文中,我們使用相位敏感膜(phase-sensitive mask,PSM)[11],其表達如下

$$公式2:g^{\mathrm{PSM}}(l, k)=\frac{|S(l, k)|}{|E(l, k)|} \cos (\theta)$$

其中$\theta=\theta^{S(l, k)}-\theta^{E(l, k)} \cdot S(l, k)$和$E(l,k)$表示第$l$幀和第$k$頻率bin的near end(近端)和AF輸出信號,PSM在網絡中被截斷在0和1之間。然后通過以下公式計算所提出的RAES $\hat{S}(l,k)$在頻點$(l,k)$中的頻域輸出

$$公式3:\hat{S}(l, k)=g^{\mathrm{PSM}}(l, k) E(l, k)$$

  最小平方誤差(MSE)在訓練過程中用作損失函數。為了完全消除回聲,在某種程度上使近端信號失真是不可避免的。只要網絡的估計不夠完美,RAES要么會使近端信號失真,要么會保留一些殘留回波,或者更糟,兩者都有。一方面,從本質上講,AEC的主要目的是消除麥克風信號中的所有回聲,同時盡可能保留近端信號。因此,與保持近端信號質量相比,抑制回聲的要求更高。另一方面,MSE損失是對稱的度量,因為相同數量的正負偏差將被視為完全相同的損失。因此,直接使用MSE無法控制抑制回聲和保留近端信號之間的折衷。本文的解決方案是應用參數Leaky ReLU函數來計算target與估計掩膜$\Delta(l, k)$在$(l,k)$頻率bin上的加權均方距離,其抑制比為$\alpha$

$$公式4:\Delta(l)=\left\{\begin{array}{ll}
\frac{1}{K} \sum_{k=0}^{K-1}\left[g_{t}(l, k)-g_{e}(l, k)\right]^{2}, & \text { if } g_{t}(l, k)<g_{e}(l, k) \\
\frac{1}{K} \sum_{k=0}^{K-1}\left\{\alpha_{k}\left[g_{t}(l, k)-g_{e}(l, k)\right]\right\}^{2}, & \text { else }
\end{array}\right.$$

其中$g_t(l,k)$和$g_e(l,k)$分別是目標和估計在頻點$(l,k)$的相位敏感掩模,我們稱其為抑制損失。作為參數的$k$個頻點中的抑制比$\alpha_k$被設置在0和1之間,k越小,抑制將越嚴重。可以通過設置不同的$k$值在每個頻點中調整抑制程度。 為簡化起見,我們在所有頻點中都設置了相同的值。

  根據以下規則獲得第$l$幀中的DTD狀態:

$$公式5:\operatorname{DTD}(l)=\left\{\begin{array}{ll}
0, & \text { if } \max (|y(l, k)|)<0.001 \& \max (|s(l, k)|)>0.001 \\
1, & \text { if } \max (|s(l, k)|)<0.001 \& \max (|y(l, k)|)>0.001 \\
2, & \text { otherwise }
\end{array}\right.$$

  其中DTD狀態0、1、2分別對應於信號近端通話、單遠端通話和雙端通話。由於數據集單方通話和雙方通話之間的不平衡,將focusing參數$Y^*=2$的focal損失[12]作為DTD訓練任務的損失函數,我們將[13]中的兩種損失與兩個權重結合起來,通過網絡更新兩個權重。

4  實驗結果

4.1 數據集

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM