論文翻譯:2021_FullSubNet: A Full-Band And Sub-Band Fusion Model For Real-Time Single-Channel Speech Enhancement


論文地址Fullsubnet:實時單通道語音增強的全頻帶和子頻帶融合模型

代碼地址https://github.com/haoxiangsnr/FullSubNet

引用格式:Hao X, Su X, Horaud R, et al. FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6633-6637.

摘要

  本文提出了一種 全頻帶和子頻帶融合模型FullSubNet 用於單通道實時語音增強。全頻帶和子頻帶模型 是指分別輸入全頻帶和子頻帶 帶噪頻譜特征,輸出全頻帶和子頻帶 純凈語音。

  • 全頻帶模型是指,輸入全頻帶 帶噪語音頻譜,輸出全頻帶 預測純凈語音 的模型。
  • 子頻帶模型 獨立處理每個頻率bin,輸入一個頻率和幾個上下文頻率,輸出相應頻率的 純凈語音預測。

這兩種模型有不同的特點。全頻帶模型可以捕獲全局 上下文譜和長距離交叉頻帶依賴,但缺乏信號平穩性建模和關注局部譜模式的能力。子帶模型正好相反。

  在我們提出的FullSubNet中,我們將一個純全頻帶模型和一個純子頻帶模型依次連接起來,並利用實際的聯合訓練將這兩種模型的優點結合起來。我們在DNS挑戰(INTERSPEECH 2020)數據集上進行了實驗,對所提出的方法進行了評價。實驗結果表明,全頻帶信息和子頻帶信息是互補的,FullSubNet可以有效地集成它們。此外,FullSubNet的性能也超過了DNS Challenge (INTERSPEECH 2020)中排名第一的方法。

關鍵詞:全頻帶,子頻帶融合,子頻帶,語音增強

1  引言

  近年來,基於深度學習的單通道語音增強方法極大地提高了語音增強系統的語音質量和可懂度。這些方法通常在有監督的環境中進行訓練,可分為時域方法和頻域方法。

  • 時域方法[1-3]使用神經網絡直接將帶噪語音映射純凈語音波形。
  • 頻域方法[4-7]通常使用噪聲頻譜特征(例如復頻譜、幅度頻譜)作為神經模型的輸入。學習目標是純凈語音的頻譜特征或某個掩碼(例如,理想二進制掩碼(Ideal Binary Mask, IBM)[8]、理想比率掩碼(Ideal Ratio Mask, IRM)[9]、復理想比率掩碼(complex Ideal Ratio Mask, cIRM)[10])。

一般來說,由於時域信號的維度較高並且缺乏明顯的幾何結構,頻域方法仍然占據絕大多數語音增強方法的主導地位。

時域方法的映射能力較強,頻域方法的泛化能力更強。

  在本文中,我們重點研究了頻域實時單通道語音增強。在我們之前的工作[11]中,提出了一種基於子帶的單通道語音增強方法。與傳統的基於全頻帶的方法不同,該方法以子頻帶方式執行:模型的輸入由一個頻率和多個上下文頻率組成。輸出是對應頻率的純凈語音。所有頻率都是獨立處理的。該方法的設計依據如下:

  1. 它學習信號的頻率平穩性來區分語音和平穩噪聲。眾所周知,語音是非平穩的,而許多類型的噪聲是相對平穩的。隨頻率變化的STFT幅值的時間演化反映了平穩性,這是傳統噪聲功率估計器[12, 13]和語音增強方法[14, 15]的基礎。
  2. 它着重於當前和上下文頻率中呈現的局部頻譜。局部譜模式已被證明是區分語音和其他信號的有用信息。該方法在INTERSPEECH 2020中提交給DNS挑戰[16],並在16份實時音頻提交中排名第四。

  子帶模型滿足了DNS挑戰的實時性要求,性能也非常有競爭力。然而,子帶模型不能對全局頻譜進行建模,也不能利用長距離跨頻帶依賴性。特別是對於信噪比極低的子帶,子帶模型很難恢復純凈的語音,而借助於全頻帶相關性可以恢復純凈語音。另一方面,全頻帶模型[4,5]的訓練是學習高維輸入和輸出之間的回歸,缺乏專門用於子頻帶信息(如信號平穩性)的機制。

  針對上述問題,本文提出了一種全頻帶與子頻帶融合模型FullSubNet。通過大量的前期實驗,將FullSubNet設計成全頻帶模型和子頻帶模型的串聯。簡而言之,全頻帶模型的輸出是子頻帶模型的輸入。通過有效的聯合訓練,對兩種模型進行了聯合優化。FullSubNet可以捕獲全局(全頻帶)上下文,同時保留對信號平穩性進行建模和關注局部頻譜模式的能力。像子帶模型一樣,FullSubNet仍然滿足實時需求,並且可以在合理的延遲內利用未來的信息。我們在DNS挑戰(INTERSPEECH 2020)數據集上評估FullSubNet。實驗結果表明,FullSubNet顯著優於子帶模型[17]和參數量較大的純全帶模型,說明子帶信息和全帶信息是互補的。所提出的融合模型可以有效地集成它們。此外,我們還比較了在DNS挑戰中排名靠前的方法的性能,結果表明,我們的客觀性能指標優於它們。

2  方法

  我們用短時傅立葉變換(STFT)域表示語音信號:

$$公式1:X(t, f)=S(t, f)+N(t, f)$$

  其中$X(t, f)$,$S(t, f)$,$N(t, f)$分別代表帶噪語音、純凈語音 和 噪聲 的 復數值。$t=1, ..., T$為時間幀,$f=0, ..., F-1$為頻點。

  本文只研究去噪任務,目標是抑制噪聲$N(t, f)$,並恢復語音信號S(t, f)。我們提出了一個全頻帶$G_{full}$和和子頻帶$G_{sub}$ 融合模型來完成這一任務。基本工作流程如圖1所示。接下來,我們將詳細介紹每個部分。

圖1所示。提出的的FullSubNet圖。矩形中的第二行描述了當前階段數據的維數,

例如,1 (F)表示一個F維向量。F (2N + 1)表示F獨立(2N + 1)維向量

2.1  輸入

  先前的工作 [4, 5, 11, 17] 已經證明幅度譜特征可以提供關於全頻帶全局頻譜、子帶局部頻譜和信號平穩性的關鍵線索。 因此,我們使用帶噪語音的全頻帶幅度譜特征:

$$公式2:\mathbf{X}(t)=[|X(t, 0)|, \cdots,|X(t, f)|, \cdots,|X(t, F-1)|]^{T} \in \mathbb{R}^{F}$$

我們將其序列化為:

$$公式3:\tilde{\mathbf{X}}=(\mathbf{X}(1), \cdots, \mathbf{X}(t), \cdots, \mathbf{X}(T))$$

作為全頻帶模型$G_{full}$的輸入。 然后,$G_{full}$可以捕獲全局上下文信息並輸出一個大小與$\tilde{X}$相同的譜embedding,有望為后面的子帶模型$G_{sub}$提供補充信息。

  子帶模型$G_{sub}$根據帶噪語音中子帶信號的語音平穩性和編碼后的局部譜 和 全帶模型的輸出 預測頻率方向的純凈語音目標。取時頻點$|X(t, f)|$及其相鄰的$2*N$個時頻點作為子帶單元。$N$是每測考慮的相鄰頻率數。對於邊界頻率,當$f-N<0$或$f+N>F-1$,使用圓形傅里葉頻率。我們將子帶單元和全帶模型的輸出連接起來,表示為$G_{full}(|X(t, f)|)$,作為子帶模型$G_{sub}$的輸入

$$公式4:\begin{aligned}
\mathrm{x}(t, f)=&[|X(t, f-N)|, \cdots,|X(t, f-1)|,|X(t, f)|\\
&|X(t, f+1)|, \cdots,|X(t, f+N)| \\
&\left.G_{\text {full }}(|X(t, f)|)\right]^{T} \in \mathbb{R}^{2 N+2}
\end{aligned}$$

對於頻率$f$, $G_{sub}$的輸入序列為

$$公式5:\widetilde{\mathrm{x}}(f)=(\mathrm{x}(1, f), \cdots, \mathrm{x}(t, f), \cdots, \mathrm{x}(T, f))$$

  在該序列中,信號隨時間軸的時間變換反映了信號的平穩性,這是一個區分語音和平穩噪聲的有效線索。帶噪語音的子帶譜(由2N + 1頻率組成)及其時間動態提供了局部頻譜模式,可通過專門的子帶模型學習得到。雖然信號平穩性線索和局部模式實際上也存在於全頻帶模型$G_{full}$的輸入中,但是,它們沒有被全頻帶模型$G_{full}$專門的學習到。因此,子帶模型$G_{sub}$仍然學習與全帶模型$G_{full}$一些額外且不同的信息。同時,全頻帶模型$G_{full}$的輸出提供了子頻帶模型$G_{sub}$未看到的一些補充信息。

  由於全頻帶頻譜特征$X(f)$包含$F$個頻率,我們最終為$G_{sub}$生成$F$個獨立的輸入序列,每個序列的維數為$2N+2$。

2.2  學習目標

  毫無疑問,相位的精確估計可以提供更多的聽覺感知質量改善,特別是在低信噪比(SNR)條件下。然而,相位被包裹在$-\pi \sim \pi$中,並且具有混亂的數據分布,這使得不容易估計。與之前的工作[11,17]一樣,我們采用復數理想比率掩模(cIRM)作為模型的學習目標,而不是直接估計相位。按照[10],我們在訓練中使用雙曲正切來壓縮cIRM,在推理中使用逆函數來解壓縮掩碼(K=10,C=0.1)。對於一個時頻點,我們將cIRM表示為$y(t,f)\in R^2$。子帶模型將頻率$f$作為輸入序列$\tilde{x}(f)$,然后預測cIRM序列

$$公式6:\widetilde{\mathbf{y}}(f)=(\mathbf{y}(1, f), \cdots, \mathbf{y}(t, f), \cdots, \mathbf{y}(T, f))$$

2.3  模型框架

  圖1顯示了FullSubNet的架構。FullSuNet中的全頻帶和子頻帶模型具有相同的模型結構,包括兩個堆疊的單向LSTM層和一個線性(完全連接)層。全頻帶模型的LSTM每層包含512個隱藏單元,並使用ReLU作為輸出層的激活函數。全頻帶模型在每個時間步長輸出一個$F$維向量,每個頻率對應一個元素。然后將子帶單元與該矢量頻率逐次連接,形成F個獨立的輸入樣本(如式4所示)。根據我們之前的實驗,子帶模型不需要像全帶模型那樣大,因此LSTM每層使用384個隱藏單元。根據[10]的設置,子帶模型的輸出層不使用激活函數。值得注意的是,所有的頻率共享一個唯一的子頻帶網絡(及其參數)。在訓練過程中,考慮到LSTM記憶容量有限,采用等長序列生成輸入-目標序列對。

  為了使模型更易於優化,必須對輸入序列進行規范化,以使輸入振幅相等。對於全頻帶模型,我們根據經驗計算全頻帶序列$\tilde{X}$上的幅度譜特征的平均值,並將輸入序列歸一化為$\frac{\bar{x}}{\mu_{full}}$。子帶模型獨立處理頻率。對於頻率$f$,我們計算輸入序列$\tilde{x}(f)$上的平均值$\mu_{sub}(f)$,並將輸入序列歸一化為$\frac{\bar{x}(f)}{\mu_{sub}(f)}$。

   在實時推理階段,我們通常使用累積歸一化方法[18,19],即每次使用所有可用幀計算用於歸一化的平均值。然而,在實際的實時語音增強系統中,語音信號最初通常是無聲的,這意味着語音信號的起始部分大部分是無效的。在這項工作中,為了更好地展示 FullSubNet 網的性能而不考慮規范化問題,我們直接使用在整個測試剪輯上計算的$\mu_{full}$和$\mu_{sub}(f)$來在推理過程中進行歸一化。

  與 [17] 中提到的方法相同,我們提出的方法支持輸出延遲,這使模型能夠在合理的小延遲內探索未來信息。 如圖1所示,為了推斷$y(t-\tau )$,未來的時間步長,也就是說$x(t-\tau+1),...,x(t)$作為在輸入序列(就像圖1所示)。

3  實驗設置

3.1  數據集

  我們在DNS Challenge (INTERSPEECH 2020)數據集上評估了FullSubNet[16]。clean speech set包括2150名說話人的500多小時片段。噪聲數據集包含150個類別超過180個小時的片段。為了充分利用數據集,我們在模型訓練過程中通過動態混合來模擬語音-噪聲混合。具體地說,在每個訓練階段開始之前,75%的純凈語音與

(1)多通道脈沖響應數據庫[20]中隨機選擇的室內脈沖響應(RIR)混合,混響時間(T60)為0.16秒、0.36秒和0.61秒。

(2) 混響挑戰數據集[21],具有三個混響時間0.3秒、0.6秒和0.7秒。

  然后,通過將純凈語音(其中75%為混響)和隨機信噪比在-5到20 dB之間的噪聲混合,動態生成語音-噪聲混合。經過十個epoch訓練后,該模型顯示的總數據超過5000小時。DNS挑戰提供了一個公開可用的測試數據集,包括兩類合成剪輯,即無混響和有混響。每個類別有150個噪聲片段,信噪比分布在0 ~ 20 dB之間。我們使用這個測試數據集進行評估。

3.2  實現

  信號被轉換到STFT域使用漢寧窗,窗長為512(32 ms)和256幀移。我們使用PyTorch來實現FullSubNet。Adam優化器的使用學習率為0.001。訓練序列長度設置為T = 192幀(約3秒)。根據DNS Challenge (INTERSPEECH 2020)的實時性要求,我們設置$\tau$ = 2,利用兩個未來幀來增強當前幀,並使用16*2 = 32ms的前瞻性。如[17],我們在FullSubNet中為子帶模型的輸入頻率的每一側設置了15個相鄰頻率。

3.3  基線

  為了驗證全頻帶和子頻帶融合方法的有效性,我們使用與FullSubNet相同的實驗設置和學習目標(cIRM)與以下兩種模型進行了比較。

  • 子帶模型[17]:子帶模型在DNS-Challenge中取得了非常有競爭力的性能(實時跟蹤的第四名)。為了公平地比較性能,就像訓練FullSubNet一樣,我們在訓練期間使用動態混合。
  • 全頻帶模型:我們構建一個純全頻帶模型,它包含三個LSTM層,每層有512個隱藏單元。全頻帶模型的架構,即LSTM層的堆棧,實際上被廣泛應用於語音增強,如[6,26]。該模型比所提出的融合模型略大,因此比較是足夠公平的。

除了這兩種模型,我們還比較了在DNS挑戰(INTERSPEECH 2020)中排名第一的方法,包括NSNet[22]、DTLN[23]、convc - tasnet[24]、DCCRN[19]和PoCoNet[25]。

4  結果

4.1  與基線比較

  在表 1 的最后三行,我們比較了子帶模型、全帶模型和 FullSubNet 的性能。 #表中的Para和Look Ahead分別代表模型的參數量和使用的未來信息的長度。 With Reverb 是指測試數據集中的帶噪語音不僅有噪聲,而且有一定程度的混響,這大大增加了語音增強的難度。沒有混響意味着測試數據集中的帶噪語音只有噪音。為了公平比較,這三個模型使用相同的訓練目標 (cIRM)、實驗設置和使用的未來信息的長度。

  從表中我們可以發現,大部分全頻帶模型的評估分數都優於子頻帶模型,因為全頻帶模型使用更大的網絡來利用寬帶信息。有趣的是,相對於全頻帶模型,子頻帶模型對於 With Reverb 數據似乎更有效,因為全頻帶模型對於 With Reverb 的優勢小於無 Reverb 的優勢。這表明子帶模型通過關注窄帶頻譜的時間演化,有效地模擬了混響效應。這可能是由於混響效應的跨頻帶相關性實際上遠低於信號頻譜的跨頻帶相關性。

  關於FullSubNet:(1)雖然子帶模型的性能已經非常有競爭力,但是在集成了全帶模型(由兩個LSTM層和一個線性層堆疊而成)之后,模型性能得到了極大的提升。這種改進表明全局頻譜模式和長距離跨帶依賴性對於語音增強至關重要。 (2)FullSubNet的性能也明顯超過了全頻帶模型。我們必須首先指出,這種改進並非來自使用更多參數。事實上,FullSubNet(兩層全帶LSTM加兩層子帶LSTM)的參數甚至比全帶模型(三層全帶LSTM)還要少。 FullSubNet 在集成子帶模型后,繼承了子帶模型的獨特能力,即利用信號平穩性和局部頻譜模式,以及對混響效果進行建模的能力。 FullSubNet 相對於全波段模型的明顯優勢表明,子波段模型所利用的信息確實沒有被全波段模型學習到,這是對全波段模型的補充。總的來說,這些結果證明所提出的融合模型成功地整合了全頻帶和子頻帶技術的優點。

4.2  與最先進的方法進行比較

  在表1中,除了說明FullSubNet可以有效地整合兩種互補的模型外,我們還將其與DNS Challenge (INTERSPEECH 2020)中排名第一的方法進行了性能比較。表格中的“Rank”列表示是否支持實時處理和挑戰排名。例如,RT-8表示實時(RT)軌道的第8位。NRT-1是指非實時(NRT)軌道的第一個位置。

  在表1中,NSNet是DNS挑戰的官方基線方法,它使用一個緊湊的RNN以單幀輸入、單幀輸出的方式增強噪聲短時間語音頻譜。我們使用asteroid工具包中提供的DNS挑戰配方來實現和訓練NSNet。使用[17]中提到的方法生成訓練數據。在表中,無論哪種指標,我們提出的方法在所有指標上都大大超過了NSNet。

  在DNS挑戰的主觀聽力測試中,DTLN、convtasnet、DCCRN、PoCoNet排名第一。為了保證比較的公平性,我們直接引用他們的原始論文成績。表格中空白的位置表示在原論文中沒有報告相應的分數。DTLN[23]具有實時處理能力。它將STFT操作和學習的分析和合成基礎結合成一個不到100萬個參數的堆疊網絡。[24]提出了一個低延遲的Conv-TasNet。 Conv-TasNet [18]是一種應用廣泛的時域音頻分離網絡,具有較大的計算復雜度。因此,低延遲的Conv-TasNet 無法滿足實時性要求。DCCRN[19]模擬了卷積遞歸網絡內部的復數運算。它贏得了實時賽道的第一名。PoCoNet[25]是一種采用頻率-位置嵌入的卷積神經網絡。此外,采用半監督方法對帶噪數據集進行預增強,以增加會話訓練數據。它贏得了非實時賽道的第一名。這些方法涵蓋了大量基於深度學習的高級語音增強技術,在一定程度上代表了當前的先進水平。這些方法的原始論文提供了在本工作中使用的同一測試集上的評價結果,但並沒有提供本工作中使用的所有指標。可以看出,在這個有限的數據集上,所提出的融合模型取得了比所有這些模型都要好得多的客觀得分。PoCoNet的性能與我們的很接近,但它是非實時模型,具有更大的網絡(約50m參數)。FullSubNet提供了一種新的全頻帶/子頻帶融合模型,這可能不會與這些最先進的模型中所采用的先進技術相沖突。因此,值得期待的是,適當地結合它們,可以進一步提高語音增強能力。

  在計算復雜度方面,在基於Intel Xeon E5-2680 v4的虛擬四核CPU (2.4 GHz)上測試,提出的模型(PyTorch實現)的1幀STFT (32 ms)處理時間為10.32 ms,明顯滿足實時性要求。稍后,我們將開放源代碼和預訓練模型,並在https: //github.com/haoxiangsnr/FullSubNet上顯示一些增強的音頻剪輯。

表1。DNS挑戰測試數據集上的WB-PESQ [MOS]、NB-PESQ [MOS]、STOI[%]和SI-SDR [dB]的性能

5  總結

  在本文中,我們提出了一個全頻帶和子頻帶融合模型,稱為FullSubNet,用於實時單通道語音增強。該模型融合了全頻帶模型和子頻帶模型的優點,既能捕獲全局(全頻帶)光譜信息,又能捕獲長距離跨頻帶依賴關系,同時保留了信號平穩性建模和局部光譜模式識別的能力。在DNS挑戰(INTERSPEECH 2020)測試數據集上,我們證明了子頻帶信息和全頻帶信息是互補的,FullSubNet可以有效地集成它們。在DNS挑戰中,我們還與一些排名前列的方法進行了性能比較,結果表明FullSubNet優於這些方法。

6  參考文獻

[1] Dario Rethage, Jordi Pons, and Xavier Serra, A wavenet for speech denoising, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 5069 5073.

[2] A. Pandey and D. Wang, Tcnn: Temporal convolutional neural network for real-time speech enhancement in the time domain, in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6875 6879.

[3] Xiang Hao, Xiangdong Su, Zhiyu Wang, Hui Zhang, and Batushiren, UNetGAN: A Robust Speech Enhancement Approach in Time Domain for Extremely Low Signal-to-Noise Ratio Condition, in Proc. Interspeech 2019, 2019, pp. 1786 1790.

[4] Y. Xu, J. Du, L. Dai, and C. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7 19, 2015.

[5] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 10, pp. 1702 1726, 2018.

[6] Jitong Chen and DeLiangWang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[7] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 708 712.

[8] DeLiang Wang, On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis, in Speech Separation by Humans and Machines, Pierre Divenyi, Ed., pp. 181 197.Kluwer Academic Publishers, Boston, 2005.

[9] Lei Sun, Jun Du, Li-Rong Dai, and Chin-Hui Lee, Multipletarget deep learning for lstm-rnn based speech enhancement, in 2017 Hands-free Speech Communications and Microphone Arrays (HSCMA). IEEE, 2017, pp. 136 140.

[10] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 3, pp. 483 492, 2016.

[11] Xiaofei Li and Radu Horaud, Narrow-band Deep Filtering for Multichannel Speech Enhancement, arXiv preprint arXiv:1911.10791, 2019.

[12] Timo Gerkmann and Richard C Hendriks, Unbiased mmsebased noise power estimation with low complexity and low tracking delay, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1383 1393, 2011.

[13] Xiaofei Li, Laurent Girin, Sharon Gannot, and Radu Horaud, Non-stationary noise power spectral density estimation based on regional statistics, in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016, pp. 181 185.

[14] Yariv Ephraim and David Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.

[15] Israel Cohen and Baruch Berdugo, Speech enhancement for non-stationary noise environments, Signal processing, vol. 81, no. 11, pp. 2403 2418, 2001.

[16] Chandan KA Reddy, Ebrahim Beyrami, Harishchandra Dubey, Vishak Gopal, Roger Cheng, Ross Cutler, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., The interspeech 2020 deep noise suppression challenge: Datasets, subjective speech quality and testing framework, arXiv preprint arXiv:2001.08662, 2020.

[17] Xiaofei Li and Radu Horaud, Online monaural speech enhancement using delayed subband lstm, arXiv preprint arXiv:2005.05037, 2020.

[18] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1256 1266, 2019.

[19] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement, arXiv preprint arXiv:2008.00264, 2020.

[20] Elior Hadad, Florian Heese, Peter Vary, and Sharon Gannot, Multichannel audio database in various acoustic environments, in 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC). IEEE, 2014, pp. 313 317.

[21] Keisuke Kinoshita, Marc Delcroix, Sharon Gannot, Emanu el AP Habets, Reinhold Haeb-Umbach, Walter Kellermann, Volker Leutnant, Roland Maas, Tomohiro Nakatani, Bhiksha Raj, et al., A summary of the reverb challenge: state-of-the-art and remaining challenges in reverberant speech processing research, EURASIP Journal on Advances in Signal Processing, vol. 2016, no. 1, pp. 7, 2016.

[22] Y. Xia, S. Braun, C. K. A. Reddy, H. Dubey, R. Cutler, and I. Tashev, Weighted speech distortion losses for neuralnetwork- based real-time speech enhancement, in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 871 875.

[23] Nils L Westhausen and Bernd T Meyer, Dual-signal transformation lstm network for real-time noise suppression, arXiv preprint arXiv:2005.07551, 2020.

[24] Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, and Bhiksha Raj, Exploring the Best Loss Function for DNN-Based Lowlatency Speech Enhancement with Temporal Convolutional Networks, arXiv:2005.11611 [cs, eess], Aug. 2020, arXiv: 2005.11611.

[25] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss, arXiv preprint arXiv:2008.04470, 2020.

[26] Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R Hershey, and Bj orn Schuller, Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr, in International Conference on Latent Variable Analysis and Signal Separation. Springer, 2015, pp. 91 99.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM