論文翻譯:2021_F-T-LSTM based Complex Network for Joint Acoustic Echo Cancellation and Speech Enhancement


論文地址:https://arxiv.53yu.com/abs/2106.07577

基於 F-T-LSTM 復雜網絡的聯合聲學回聲消除和語音增強

摘要

  隨着對音頻通信和在線會議的需求日益增加,在包括噪聲、混響和非線性失真在內的復雜聲學場景下,確保聲學回聲消除(AEC)的魯棒性已成為首要問題。盡管已經有一些傳統的方法考慮了非線性失真,但它們對於回聲抑制仍然效率低下,並且在存在噪聲時性能會有所衰減。在本文中,我們提出了一種使用復雜神經網絡的實時 AEC 方法,以更好地建模重要的相位信息和頻率時間 LSTM (F-T-LSTM),它掃描頻率和時間軸,以實現更好的時間建模。此外,我們利用修改后的 SI-SNR 作為損失函數,使模型具有更好的回聲消除和噪聲抑制 (NS) 性能。僅使用 140 萬個參數,所提出的方法在平均意見得分 (MOS) 方面優於 AEC challenge 基線 0.27。

關鍵字:回聲消除、復雜網絡、非線性失真、噪聲抑制;

1 引言

  回聲是在全雙工語音通信系統中產生的,由於近端揚聲器和麥克風之間的聲學耦合,遠端用戶接收到他/她自己的語音的修改版本。回聲消除 (AEC) 旨在消除麥克風信號中的回聲,同時最大限度地減少近端說話者語音的失真。傳統的基於數字信號處理 (DSP) 的 AEC 通過使用自適應濾波器 [1, 2, 3] 估計聲學回聲路徑來工作。但在實際應用中,由於回波路徑變化、背景噪聲和非線性失真等問題,它們的性能可能會嚴重下降。背景噪聲在真正的全雙工語音通信系統中是不可避免的。然而,傳統的語音增強方法與 AEC [4] 相結合,對這種干擾尤其是非平穩噪聲的魯棒性不夠。非線性失真通常由低質量的揚聲器、功率過大的放大器和設計不佳的外殼引起;即使是適度的非線性失真也會顯着降低線性 AEC 模型的性能 [5]。一般來說,后置濾波方法 [6, 7, 8] 被進一步用於傳統的 AEC,但這些方法對於回聲抑制仍然效率低下。

  由於其強大的非線性建模能力,深度學習的最新進展在聲學回聲消除方面顯示出巨大的潛力。有一些方法將傳統的信號處理與神經網絡相結合來處理 AEC 任務。Ma等人[9] 使用自適應濾波器處理線性回聲以及用於殘余非線性回聲消除的輕量級 LSTM 結構。Fazel等人 [10] 設計了一個具有頻域 NLMS 的深度上下文注意模塊,以自適應地估計近端語音的特征。Wang等人[11] 和 Valin 等人[12] 在最近的 AEC 挑戰中也取得了有競爭力的結果 [13]。 Zhang 和 Wang [14] 將 AEC 表述為一個有監督的語音分離問題,其中采用雙向長短期記憶 (BLSTM) 網絡來預測麥克風信號幅度的掩碼。此后,許多基於語音增強/分離網絡的AEC算法被提出。韋斯特豪森等人。 [15] 通過將遠端信號連接為附加信息來擴展 DTLN [16]。Chen等人[17] 在 ConvTasNet [18] 的修改的基礎上,提出了一種帶有卷積網絡的殘余回波抑制 (RES) 方法,Kim 等人[19] 提出了一種基於 Wave-U-Net [20] 的輔助編碼器和注意力網絡,以有效抑制回聲。

  最近在語音增強方面的研究 [21, 22] 顯示了使用復雜網絡的顯著優勢,該網絡同時處理幅度和相位,從而在語音增強方面取得卓越的性能。與實值網絡相比,復雜網絡甚至可以以更小的參數[22]獲得更好的性能。優異的性能主要歸功於相位信息的有效利用。此外,基於復雜領域的方法在深度噪聲抑制(DNS)挑戰中取得了整體更好的主觀聆聽性能[13]。

  在本文中,受復雜網絡最新進展的啟發,我們通過采用復雜的編碼器-解碼器結構化網絡來解決 AEC 任務。據我們所知,這是第一個在 AEC 任務中采用復雜網絡的工作。具體來說,我們分別使用復雜的 Conv2d 層和復雜的 Transposed-Conv2d 層作為編碼器和解碼器來模擬來自遠端和近端信號的復雜頻譜,並使用復雜的 LSTM 層作為掩碼估計模塊。受 F-T-LSTM [23] 的啟發,我們在編碼器提取的高維特征的頻率軸上執行遞歸。頻率軸上的雙向 F-LSTM 可以讓網絡更好地學習頻段之間的關系,隨后的 T-LSTM 掃描時間軸,旨在進一步去除回波信號。我們還采用分段的 Si-SNR 作為我們網絡的損失函數。僅使用 1.4M 參數,所提出的方法在平均意見得分 (MOS) 方面優於 AEC 挑戰基線 0.27。

2 提出方法

2.1 問題表述

  我們在圖 1 中說明了聲學回聲消除的信號模型。麥克風信號 \(y(n)\) 由近端語音 \(s(n)\)、聲學回聲 \(d(n)\) 和背景噪聲 \(v(n)\) 組成:

\[y(n)=s(n)+d(n)+v(n)  (1) \]

其中 \(n\) 是指時間樣本索引。 $d(n) $ 是由遠端信號 $x(n) $ 得到的,如圖 1 所示,它也可能有揚聲器引起的非線性失真。 $h(n) $ 表示聲學回聲路徑。聲學回聲消除任務是在 $x(n) $ 已知的前提下,將$s(n) $ 與 $y(n) $ 分開。

圖 1:聲學回聲場景圖。

2.2 架構

  如圖 2 所示,我們的深度復雜 AEC 網絡由三個模塊組成:復雜編碼器-解碼器網絡、F-TLSTM 和復雜 LSTM。

圖 2:提出的網絡系統流程圖。

(A) 紅色虛線區域顯示 \(y(n)\)\(x(n)\) 之間的時間延遲。

(B) F-T-LSTM-real 和 F-T-LSTM-imag 分別用於對高維復雜特征的實部和虛部進行建模。 (C) \(y(n)\)\(x(n)\) 分別通過 STFT 轉換為 \(Y\)\(X\) 。估計的信號\(\hat{s}(n)\)是通過逆STFT 重構的。

  對於順序輸入\(w \in \mathbb{R}^{2 \times N}\),其中\(N\)是音頻采樣點的數量,2 表示兩個信號——\(y(n)\)\(x(n)\) 堆疊。對輸入信號 \(w\) 進行 STFT,我們得到復譜\(W=W_{r}+j W_{i}, W \in \mathbb{R}^{4 \times T \times F}\) ,其中輸入復矩陣\(W_{r}\)\(W_{i}\)分別表示具有相同張量維度\(\mathbb{R}^{2 \times T \times F}\)\(W\) 的實部和虛部。 \(T\) 表示幀數,\(F\) 表示 STFT 之后的頻率維度。復卷積/反卷積濾波器 \(K\) 定義為 \(K=K_{r}+j K_{i}\),其中實值矩陣 \(K_{r}\)\(K_{i}\)分別代表復核的實部和虛部。復運算\(W \circledast K\)定義為:

\[ H=\left(K_{r} * W_{r}-K_{i} * W_{i}\right)+j\left(K_{r} * W_{i}+K_{i} * W_{r}\right) \]

\[ H=H_{r}+j H_{i}, H \in \mathbb{R}^{C \times M \times T}, H_{r} \text { and } H_{i} \in \mathbb{R}^{C \times N \times T}  (2) \]

\(C\)表示輸出通道,\(M\)表示卷積/反卷積后的頻率維度變化,\(N=M / 2\)

  實頻譜的 F-T-LSTM 模塊可以描述如下(虛頻譜相同):

\[ \text { F-LSTM: }\left\{\begin{array}{l} U=\left[f\left(H_{r}^{\text {reshape }}[:, i,:]\right), i=1, \ldots, M\right] \\ V=H_{r}+U^{\text {reshape }} \end{array}\right. \]

\[ \text { T-LSTM: }\left\{\begin{array}{l} Z=\left[h\left(V^{\text {reshape }}[:, i,:]\right), i=1, \ldots, T\right] \\ Z_{\text {out }}=V+Z^{\text {reshape }} \end{array}\right.  (3) \]

其中,\(H_{T}^{\text {reshape }}\)\(U \in \mathbb{R}^{T \times N \times C}\)\(U^{\text {reshape }}, Z^{\text {reshape }}, V\)\(Z_{\text {out }} \in \mathbb{R}^{C \times N \times T}\)\(V^{\text {reshape }}\)\(Z \in \mathbb{R}^{N \times T \times C}\)\(f(\cdot)\) 是 F-LSTM 定義的映射函數,它始終是雙向 LSTM,應用於\(H_{r}^{\text {reshape }}\)的頻率維度。\(h(\cdot)\)是T-LSTM定義的映射函數,掃描時間軸。復雜解碼器之后是具有前瞻一幀的 Deepfilter[24],最后使用 [22] 中定義的 2 個復雜 LSTM 層來估計 $y(n) $ 的復雜掩碼。

  我們的模型配置的詳細描述如表 1 所示。復雜的 Conv2d/Transpose-Conv2d 層的超參數以(內核大小、步幅、輸出通道)格式給出。我們在每個 LSTM 之后省略了 Dense 層,它使維度與輸入張量保持一致。

表 1:我們提出的方法的配置。

c-代表complex的縮寫。 ×2 表示復核的實部和虛部。

2.3 訓練目標

  我們估計通過信號近似 (SA) 優化的復比率掩碼 (CRM) [25]。 CRM可以定義為:

\[ \mathrm{CRM}=\frac{Y_{r} S_{r}+Y_{i} S_{i}}{Y_{r}^{2}+Y_{i}^{2}}+j \frac{Y_{r} S_{i}-Y_{i} S_{r}}{Y_{r}^{2}+Y_{i}^{2}}  (4) \]

其中 \(Y\)\(S\) 分別表示 STFT 之后的 \(y(n)\)\(s(n)\)。網絡的最終預測掩碼\(M=M_{r}+j M_{i}\)也可以用極坐標表示:

\[ \left\{\begin{array}{l} M_{\text {mag }}=\sqrt{M_{r}^{2}+M_{i}^{2}} \\ M_{\text {phase }}=\arctan 2\left(M_{i}, M_{r}\right) \end{array}\right.  (5) \]

估計的干凈語音\(\hat{S}\)可以計算如下:

\[ S=Y_{\text {mag }} \cdot M_{\text {mag }} \cdot e^{Y_{\text {phase }}+M_{\text {phase }}}  (6) \]

2.4 損失函數

  損失函數基於 SI-SNR [26],它已被廣泛用作評估指標。分段 SI-SNR (Seg-SiSNR) 不是計算整個話語的平均 SI-SNR 損失,而是將話語分割成不同的塊,以便區分句子中單說話和雙說話的情況。我們的實驗證明 Seg-SiSNR 在 AEC 任務中比 SI-SNR 效果更好。 Seg-SiSNR 定義為:

\[ \begin{cases}s_{\text {target }} & :=(<\hat{s}, s>\cdot s) /\|s\|_{2}^{2} \\ e_{\text {noise }} & :=\hat{s}-s \\ \text { SI-SNR } & :=10 \log 10\left(\frac{\left\|s_{\text {target }}\right\|_{2}^{2}}{\left\|e_{\text {noise }}\right\|_{2}^{2}}\right) \\ \text { Seg-SiSNR } & :=\frac{1}{c} \sum_{i=1}^{c} \operatorname{SI-SNR}\left(\hat{s}_{\text {seg } i}, s_{\text {seg } i}\right)\end{cases}  (7) \]

其中\(s\)\(\hat{S}\)分別是干凈的和估計的時域波形。\(<\cdot, \cdot>\)表示兩個向量之間的點積,\(\|\cdot\|_{2}\)是歐幾里得范數(L2范數)。 \(c\) 表示從 \(s\)\(\hat{s}\)中划分出的塊數。 \(*_{\operatorname{seg} i}\)表示第 \(i\) 個語音片段。我們計算 c = 1、10、20 的 Seg-SiSNR 損失,並將它們加在一起作為最終的損失函數。

3 實驗

3.1 數據集

  我們對 AEC 挑戰數據 [13] 進行了實驗,以驗證所提出的方法。為了訓練網絡,需要准備四種類型的信號:近端語音、背景噪聲、遠端語音和相應的回聲信號。

  對於近端語音 $s(n) $,官方合成數據集包含 10,000 個話語,我們選擇前 500 個話語作為不參與訓練的測試集。其余 9,500 個話語,以及從 LibriSpeech [27] train-clean-100 子集中隨機選擇的 20,000 個話語(約 70 小時)用於訓練。

  對於背景噪聲 $v(n) $,我們從 DNS [28] 數據(大約 80 小時)中隨機選擇噪聲,其中 20,000 個用於生成測試集,其余用於訓練。

  對於遠端語音\(x(n)\)和回聲信號\(d(n)\),與近端情況類似,使用官方合成數據集的前500句作為測試集。此外,我們使用AEC挑戰賽提供的真實遠端單人通話錄音(約37小時),涵蓋多種語音設備和回聲信號延遲。

  為了與另一種具有可重復代碼的競爭方法——DTLN-AEC [15] 進行公平比較,我們還將 AEC 挑戰 2020 中的數據僅用於訓練和測試。為了區分不同數據上的結果,我們使用后綴 *-20 和 *-21 來分別區分 AEC challenge 2020 和 2021 中使用的數據集。

3.2 數據增強

  在線數據生成。我們在訓練前准備近端語音\(s(n)\)、背景噪聲\(v(n)\)、遠端語音\(x(n)\)和回聲信號\(d(n)\),並根據隨機選擇的信號對這四個信號進行組合噪聲比 (SNR)、信號回波比 (SER) 或其他概率因素。在我們的實現中,\(\mathrm{SNR} \in[5,20] \mathrm{dB}\)\(\mathrm{SER} \in[-10,13] \mathrm{dB}\)。在雙方通話期間評估的 SNR 和 SER 定義為:

\[ \mathrm{SNR}=10 \log _{10}\left[\sum_{n} s^{2}(n) / \sum_{n} v^{2}(n)\right]  (8) \]

\[ \mathrm{SER}=10 \log _{10}\left[\sum_{n} s^{2}(n) / \sum_{n} d^{2}(n)\right]  (9) \]

  其他概率因子設置如下。有 30% 的概率將 $x(n) $ 和 $d(n) $ 設置為零,這樣可以模擬近端單講的情況,噪聲信號 $ (v(n)) $ 設置為 0 和 50 % 概率。對於即時數據生成,各種隨機因素可以保證訓練數據的多樣性,尤其是在回波信號數據集不足的情況下。

  遠端信號的延遲。遠端信號在被麥克風接收之前會經歷各種延遲。如圖 2 所示,這種延遲在實際條件下是無法避免的。設備的硬件性能和處理算法,以及通話過程中的網絡波動,可能會引入延遲。在傳統的基於 DSP 的方法中,需要一個時間延遲估計 (TDE) 模塊來對齊麥克風和遠端信號。然而,由於非線性變化和背景噪聲干擾,在實際中TDE估計容易出現誤差。我們將對齊的麥克風信號隨機延遲 0 到 100 毫秒,以模擬此類錯誤。

  增益變化。我們對回聲信號 $d(n) $ 和遠端語音 $x(n) $ 應用隨機放大。具體來說,我們隨機選擇 $d(n) $ 和 $x(n) $之間的 3s 段衰減 20dB 到 30dB。隨機衰減信號的概率為 20%。此外,通過簡單的最大歸一化,[0.3, 0.9] 的幅度范圍隨機應用於兩個信號,這種變化使網絡對幅度變化不敏感。

  近端信號的混響。使用圖像方法 [29] 生成房間脈沖響應 (RIR)。為了擴大數據多樣性,我們模擬了 1000 個大小為 \(a \times b \times h\)m 的不同房間用於訓練混合,其中\(a \in[5,8], b \in[3,5]\) 和$ h \in[3, 4] $。我們在每個房間中隨機選擇 10 個位置,具有隨機的麥克風-揚聲器 (M-L) 距離 ([0.5, 5]m) 來生成 RIR。 RIR 的長度設置為 0.5s,混響時間 (RT60) 從 [0.2, 0.7]s 中隨機選擇。總共創建了 10,000 個 RIR。我們使用前 500 個 RIR 生成測試集,其余用於訓練。對於動態數據生成,RIR 僅用於以 50% 的概率與近端語音 \(s(n)\)進行卷積。遠端語音 $x(n) $ 和回聲信號 $d(n) $ 要么已經混響,要么已經在不同房間 [13] 中進行了真實錄音,因此不需要混響。

3.3 性能指標

  所提出的方法是根據 ERLE [30] 評估單次通話期間的。語音質量感知評估 (PESQ) [31]、短時客觀可理解性 (STOI) [32] 用於雙方通話期間。 AEC 挑戰還提供了基於平均 P.808 平均意見得分 (MOS) [33] 的主觀評估結果。在本研究中,ERLE 定義為:

\[ \mathrm{ERLE}=10 \log _{10}\left[\sum_{n} y^{2}(n) / \sum_{n} \hat{s}^{2}(n)\right]  (10) \]

  這種ERLE變體體現了系統實現的綜合回聲和噪聲衰減,更接近實際應用場景。

3.4 實驗設置

  窗口長度和跳數分別為 20ms 和 10ms。然后對每個時間幀應用 320 點短時傅里葉變換 (STFT) 以產生復光譜。我們的訓練數據的塊大小設置為 10s。我們的模型使用 Adam 優化器 [34] 訓練了 100 個 epoch,初始學習率為 1e-3,如果兩個 epoch 沒有改善,學習率需要減半。模型的整個參數為1.4M,如果特別指出,使用SI-SNR loss進行訓練或Seg-SiSNR loss。系統總延遲為40ms。我們網絡的實時因子(RTF)為 0.4385,在單核 Intel(R) Xeon(R) CPU E5-2640@2.50GHz 上測試。一些處理過的音頻片段可以在這個頁面3中找到。

3.5 結果和分析

  在表 2 中,我們比較了 AEC 挑戰數據集中的不同方法。由於非線性失真和噪聲干擾,WebRTC-AEC3 在 PESQ 和 STOI 的視圖中效果不佳。我們的方法在所有條件下都優於 BLSTM [14](4 個 BLSTM 層,300 個隱藏單元)和 AEC 挑戰基線 [13](2 個 GRU 層,322 個隱藏單元)。除了在頻率和時間軸上循環的 DC-F-T-LSTM-CLSTM 之外,我們還嘗試了在通道和時間軸上循環的 DC-C-T-LSTM-CLSTM 進行比較。在幾乎相同數量的參數下,我們的實驗證明在頻率軸上進行遞歸更有效。與 DTLN-AEC-20 相比,DC-F-T-LSTM-CLSTM-20
明顯以更少的參數帶來了更好的性能。 Dataset21 表示 AEC 挑戰 2021 數據集和來自 LibriSpeech 的 60 小時近端演講。我們注意到 PESQ 隨着使用更多真實數據而變得更糟,這是因為一些包含近端語音的無效遠端單講剪輯沒有被消除。即使使用這些無效剪輯,使用 Seg-SiSNR 作為成本函數也顯示出改進並獲得了最佳結果。圖 3 展示了我們的方法在相同訓練數據集下的改進以及使用 Seg-SiSNR 損失抑制殘余噪聲的更好能力。

表 2:在雙方對話的情況下,我們使用動態數據生成評估 PESQ 和 STOI,SER∈ [-13, 10]dB,SNR∈ [5, 20]dB。我們在盲測集中評估遠端單話場景的 ERLE。

圖 3:不同模型在真實雙向盲測樣本上的比較。

  表 3 顯示,除了 ST-NE 條件外,我們的方法顯着優於 AEC 挑戰基線。整體 MOS 提升高達 0.27。 ST-NE 的情況可能是由於動態生成訓練數據時 SER ([−13, 10] dB) 和 SNR([5, 20] dB) 范圍窄,導致 ST 的數據覆蓋不足-NE 場景(高 SNR/SER 場景)並在此場景中導致可感知的語音失真。我們將在未來解決這個問題。

表 3:AEC 挑戰盲測集的 MOS 主觀評分。置信區間為 0.02(ST = 單方通話,DT = 雙方通話,NE = 近端,FE = 遠端,DT-ECHO 表示與殘余回聲更相關,DTOther 表示與其他退化更相關)。

4 結論

  這項研究表明,我們提出的神經 AEC 系統 DC-F-T-LSTM-CLSTM 具有更小的參數大小和更低的運行時延遲,與競爭方法相比,可以實現更好的回聲消除和噪聲抑制性能。我們驗證了幅度和相位信息可以更有效地與復雜操作和 F-T-LSTM 模塊一起使用。使用 Seg-SiSNR 作為代價函數,可以進一步抑制殘余回波和噪聲。還報告了雙方對話場景、背景噪聲情況和真實錄音的實驗結果,證明我們的方法在具有挑戰性的聲學回聲條件下是有效的。在未來的工作中,我們將優化數據生成策略以更好地適應真實的聲學環境,並考慮較低復雜度和混合 DSP/神經網絡方法。

5 參考文獻

[1] J. Benesty, M. M. Sondhi, and Y. Huang, Springer handbook of speech processing. Springer, 2007.
[2] D. Mansour and A. Gray, “Unconstrained frequency-domain adaptivefilter,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 30, no. 5, pp. 726–734, 1982.
[3] J.-S. Soo and K. Pang,“Multidelay block frequency domain adaptivefilter,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 38, no. 2, pp. 373–376, 1990.
[4] S. Gustafsson, R. Martin, P. Jax, and P. Vary,“A psychoacoustic approach to combined acoustic echo cancellation and noise reduction,” IEEE Transactions on Speech and Audio Processing,vol. 10, no. 5, pp. 245–256, 2002.
[5] D. A. Bendersky, J. W. Stokes, and H. S. Malvar,“Nonlinear residual acoustic echo suppression for high levels of harmonic distortion,” in 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 2008, pp. 261–264.
[6] E. Hänsler and G. Schmidt, Acoustic echo and noise control: a practical approach. John Wiley and Sons, 2005, vol. 40.
[7] V. Turbin, A. Gilloire, and P. Scalart,“Comparison of three postfiltering algorithms for residual acoustic echo reduction,” in 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, 1997, pp. 307–310 vol.1.
[8] S. Boll,“Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on acoustics, speech, and signal processing, vol. 27, no. 2, pp. 113–120, 1979.
[9] L. Ma, H. Huang, P. Zhao, and T. Su,“Acoustic echo cancellation by combining adaptive digitalfilter and recurrent neural network,”2020.
[10] A. Fazel, M. El-Khamy, and J. Lee,“Cad-aec: Context-aware deep acoustic echo cancellation,” in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6919–6923.
[11] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu,“Weighted recursive least squarefilter and neural network based residual echo suppression for the aec-challenge,” in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 141–145.
[12] J.-M. Valin, S. Tenneti, K. Helwani, U. Isik, and A. Krishnaswamy,“Low-complexity, real-time joint neural echo control and speech enhancement based on percepnet,” in ICASSP 2021- 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 7133–7137.
[13] R. Cutler, A. Saabas, T. Parnamaa, M. Loide, S. Sootla, M. Purin, H. Gamper, S. Braun, K. Sorensen, R. Aichner, and S. Srinivasan,“Interspeech 2021 acoustic echo cancellation challenge: Datasets and testing framework,” in INTERSPEECH 2021, 2021.
[14] H. Zhang and D. Wang,“Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” Training, vol. 161,no. 2, p. 322, 2018.
[15] W. N. L. and M. B. T.,“Acoustic echo cancellation with the dualsignal transformation lstm network,” in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 7138–7142.
[16] N. L. Westhausen and B. T. Meyer,“Dual-signal transformation lstm network for real-time noise suppression,” arXiv preprint arXiv:2005.07551, 2020.
[17] H. Chen, T. Xiang, K. Chen, and J. Lu,“Nonlinear residual echo suppression based on multi-stream conv-tasnet,” 2020.
[18] Y. Luo and N. Mesgarani, “Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation,”IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1256–1266, 2019.
[19] J.-H. Kim and J.-H. Chang,“Attention wave-u-net for acoustic echo cancellation,” Proc. Interspeech 2020, pp. 3969–3973, 2020.
[20] D. Stoller, S. Ewert, and S. Dixon,“Wave-u-net: A multi-scale neural network for end-to-end audio source separation,” arXiv preprint arXiv:1806.03185, 2018.
[21] H.-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee,“Phase-aware speech enhancement with deep complex u-net,”arXiv e-prints, pp. arXiv–1903, 2019.
[22] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie,“Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement,” arXiv preprint arXiv:2008.00264, 2020.
[23] J. Li, A. Mohamed, G. Zweig, and Y. Gong,“Lstm time and frequency recurrence for automatic speech recognition,” in 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), 2015, pp. 187–191.
[24] W. Mack and E. A. P. Habets,“Deepfiltering: Signal extraction and reconstruction using complex time-frequencyfilters,” IEEE Signal Processing Letters, vol. 27, pp. 61–65, 2020.
[25] D. S. Williamson, Y. Wang, and D. Wang,“Complex ratio masking for monaural speech separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 3, pp. 483–492, 2016.
[26] E. Vincent, R. Gribonval, and C. Fevotte,“Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 4, pp. 1462–1469, 2006.
[27] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur,“Librispeech: An asr corpus based on public domain audio books,”in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, pp. 5206–5210.
[28] C. K. Reddy, H. Dubey, K. Koishida, A. Nair, V. Gopal, R. Cutler, S. Braun, H. Gamper, R. Aichner, and S. Srinivasan,“Interspeech 2021 deep noise suppression challenge,” arXiv preprint arXiv:2101.01902, 2021.
[29] J. B. Allen and D. A. Berkley,“Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[30] S. Theodoridis and R. Chellappa, Academic Press Library in Signal Processing: Image, Video Processing and Analysis, Hardware, Audio, Acoustic and Speech Processing. Academic Press, 2013.
[31] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 01CH37221), vol. 2.IEEE, 2001, pp. 749–752.
[32] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen,“A shorttime objective intelligibility measure for time-frequency weighted noisy speech,” in 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 4214–4217.
[33] R. Cutler, B. Nadari, M. Loide, S. Sootla, and A. Saabas,“Crowdsourcing approach for subjective evaluation of echo impairment,”in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp.406–410.
[34] D. P. Kingma and J. Ba,“Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM