論文翻譯:2021_DNS_1th:Decoupling magnitude and phase optimization with a two-stage deep network


論文地址:兩階段深度網絡的解耦幅度和相位優化

引用格式:Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6628-6632.

摘要

  在真實聲學環境下恢復被各種噪聲污染的語音信號仍然是一項艱巨的挑戰。 為此,我們提出了一種新的復雜應用去噪系統,該系統主要由兩個管道組成,即兩級網絡和一個后處理模塊。 提出第一個管道來解耦優化問題 w.r.t. 幅值和相位,即第一階段只估計幅值,第二階段進一步細化。 第二個管道旨在進一步抑制剩余的非自然失真噪聲,這被證明可以充分提高主觀質量。 在 ICASSP 2021 深度噪聲抑制 (DNS) 挑戰賽中,我們提交的系統在使用 ITU-T P.808 框架的平均意見得分 (MOS) 方面在實時軌道 1 中排名第一。

關鍵詞:語音增強,兩階段,實時,后處理、復數域

1  引言

  在實際場景中,環境噪聲和房間混響可能會對自動語音識別(ASR)系統、視頻/音頻通信和助聽設備的性能產生負面影響。針對撞擊中存在的這些問題,人們已經提出了許多語音增強(SE)算法來有效地估計純凈的語音,同時充分抑制噪聲分量[1]。近年來,深度神經網絡(DNNs)向SE研究快速發展[2,3]。通過數據驅動的范例,SE任務可以表示為一個監督學習問題,網絡試圖在時頻域中揭示噪聲特征和清潔目標之間復雜的非線性關系。

  在以往的研究中,只研究幅度的恢復,而直接結合噪聲相位進行語音波形重構[2,3]。究其原因,有兩方面的原因:其一,由於其結構不清晰,相位被認為是很難估計的。另一方面,以前的文獻報道,相位的恢復並沒有帶來言語知覺質量的顯著提高[4]。最近,相位在提高語音質量和清晰度方面的重要性不斷受到重視[5]。

  1. Williamson et.al.[6]提出了復數比率掩模(CRM),該掩模既適用於實部,也適用於虛部,在理論上可以很好地估計幅值和相位。
  2. 然后,提出了復數譜映射技術,並要求網絡直接估計RI(real and imaginary)譜,據報道,這種方法比基於掩蔽的方法獲得了更好的語音質量[7]。
  3. 最近,基於時域方法開始蓬勃發展,其中原始波形既是輸入又是輸出[8]。這樣就有效地避免了顯式相位估計問題。

  雖然第1、3方法在客觀測試中都取得了令人印象深刻的性能,但我們求助於復數域方法,因為我們發現在INTERSPEECH 2020深度噪聲抑制(DNS)挑戰中基於復數域的方法獲得了比時域方法更好的平均優化分數(MOS)。我們將其原因歸因於T-F 域比時域波形能更好地區分語音和噪聲

  為了應對ICASSP 2021 DNS挑戰賽[9]中更具挑戰性的聲學環境中的降噪問題,我們提出了一種新的SE系統,稱為具有低復雜度后處理方案的兩級復數網絡(TSCN-PP)。它主要由兩條管道組成。首先,設計了一種新穎的兩級網絡模型,它由兩個子網絡組成,即粗略幅值估計網絡(CME-Net)和復數譜細化網絡(CSR-Net)。

  • CME-Net 對頻譜幅度進行粗略估計,然后將其與噪聲相位相耦合,得到粗略的復數譜。
  • CSR-Net 接收粗估計譜和帶噪語音譜作為輸入來細化復譜。值得注意的是,CSR-Net的作用是雙重的,
    1. 首先,它不是直接估計純凈語音的頻譜,而是只捕獲殘差細節,即將估計的細節與輸入相加,得到最終的細化頻譜。
    2. 其次,由於仍有部分噪聲成分存在,CSR-Net有助於進一步抑制殘留噪聲。

  對於第二條管道,我們提出了低復雜度的后處理(PP)模塊來進一步降低非自然殘余噪聲,這被證明是提高主觀語音質量的重要步驟。

  我們從兩個角度解釋了算法的設計原理。首先,由於單級網絡的映射能力有限,往往不能很好地完成相對困難的任務,最近,文獻[10,11,12]揭示了在許多任務中多階段訓練優於單階段方法,如圖像去噪和語音分離。其次,由於DNN的非線性特性,當測試集與訓練條件不匹配時,可能會引入一些非線性失真。例如,由於SE模型的訓練往往帶有大范圍的合成噪聲-純凈語音對,當訓練好的模型應用於更復雜的實際環境時,可能會引入一些不可取的非線性失真,從而大大降低了主觀等價性。因此,若要避免可聽語音失真,有必要采用PP模塊進一步抑制殘余噪聲。在我們的主觀實驗中,我們確實發現,在使用PP后,整體主觀素質可以得到持續的提高。

  論文的其余部分結構如下。在第二節中,給出了所提出的兩級網絡模型和后處理模型。第三節給出了實驗設置,第四節給出了實驗結果,第五節給出了一些結論。

2  提出的TSCN-PP

2.1  符號

  我們提出的算法框架如圖1所示。本文將$(X_\tau ,X_i)$表示為帶噪語音的復數譜,而$\left(\tilde{S}_{r \mid i}^{c m}, S_{r \mid i}\right)$、$\left(\tilde{S}_{r \mid i}^{c s}, S_{r \mid i}\right)$和$\left(\bar{S}_{r \mid i}^{p p}, S_{r \mid i}\right)$分別表示CME-Net、CSR-Net和PP-模塊估計的實部和虛部。此外,還定義CME-Net、CSR-Net和PP-模塊的映射函數為$F_{cm}$、$F_{cs}$和$F_{pp}$,參數集分別為$\Phi_{cm}$、$\Phi_{cs}$和$\Phi_{pp}$。

圖1:處理流程。(a) 提出的帶有后處理的兩階段框架;(b) CME-Net的網絡框架;(c) CSR-Net的網絡框架

2.2  兩階段網絡

  如圖1所示,所提出的兩級網絡,即TSCN,由兩個主要部分組成,即CME-Net和CSR-Net,CME-Net以噪聲頻譜的幅值作為輸入特征,以純凈語音頻譜的幅值作為輸出,再與噪聲相位耦合得到粗糙的復數譜(coarse complex spectrum, CSS),即$\left(\widetilde{S}_{r}^{c m}, \widetilde{S}_{i}^{c m}\right)$,在第二階段,將CCS和原始噪聲頻譜連接起來作為CSR-Net的輸入,然后網絡估計殘差頻譜,將其直接添加到CCS中以獲得精煉的對應物。 具體來說,在第一階段 ,僅優化幅度並且可以去除大多數噪聲分量。 在第二階段,網絡只需要修改相位,同時進一步細化幅度。 簡而言之,計算過程是:

$$公式1:\left|\tilde{S}^{c m}\right|=\mathcal{F}_{c m}\left(|X| ; \Phi_{c m}\right)$$

$$公式2:\left(\tilde{S}_{r}^{c s}, \tilde{S}_{i}^{c s}\right)=\left(\tilde{S}_{r}^{c m}, \tilde{S}_{i}^{c m}\right)+\mathcal{F}_{c s}\left(\tilde{S}_{r}^{c m}, \tilde{S}_{i}^{c m}, X_{r}, X_{i} ; \Phi_{c s}\right)$$

其中,$\tilde{S}_{r}^{c m}=\Re(|\tilde{S}^{c m}| e^{j \theta_{X}}) $,$\tilde{S}_{i}^{c m}=\Im(|\tilde{S}^{c m}| e^{j \theta_{X}})$。

  CME-Net和CSR-Net都采用與[13]相似的網絡拓撲,包括門控卷積編碼器、解碼器和堆疊的時間卷積模塊(Temporal Convolution Modules,TCM)[14]。編碼器用來提取頻譜特征,解碼器用來重構頻譜。注意,這里不使用長短期記憶(LSTM)作為序列建模的基本單元,而是使用堆疊的TCM來更好地捕獲短期和長期序列依賴關系。

  如圖2(a)所示,在先前的TCM設置中,給定大小為(256,T)的輸入,其中256和T分別表示通道數和時間步長,TCM首先使用1×1-Conv將輸入投影到較高的通道空間,即512,然后應用深度擴張卷積(DD-Conv),輸出1×1-Conv重新變為256。為便於澄清,省略了所有norm layers和激活函數。為了進一步降低參數負擔,我們在這里提出了兩種類型的輕量級TCM,如圖2(b)-(c)所示。在圖2(b)中,1×1-Conv將通道數壓縮為64,然后是門控D-Conv,即將一個常規擴張卷積與另一個擴張分支相乘,其中應用Sigmoid函數將輸出值縮放為(0,1)。2(c)是DTCM的改進版本,它應用了兩個門D-Conv,並將來自兩個分支的輸出連接在一起。並不是說兩個分支之間的擴張率是互補的,即如果一個分支的擴張率是$2^r$,那么另一個擴張率就變成$2^{M-r}$,這里M=5。理論上,大的擴張率意味着可以捕獲長期相關性,而小的擴張率可以學習局部序列相關性。因此,這兩個分支在訓練過程中既建立了短序列相關性,又建立了長序列相關性。在本研究中,我們采用圖2(c)中的TCM作為CME-Net的基本單元,而將圖2(c)中的DTCM作為CSR-Net的基本單元。

圖2所示。不同類型 TCM 之間的比較,為了說明方便,忽略了規范層和激活層。

(a) 原始TCN。 (b) 提議的輕量級TCM。 (c) 提議的輕量級雙 TCM (DTCM)

2.3  損失函數

  對於兩級網絡,采用以下策略對網絡進行訓練。首先,我們分別訓練具有以下損失的CME-Net:

$$公式3:\mathcal{L}_{c m}=\left\|\left|\bar{S}^{c m}\right|-|S|\right\|_{F}^{2}$$

然后,加載CME-Net的預訓練模型,並與CSR-Net進行聯合優化,給出如下結果:

$$公式4:\mathcal{L}=\mathcal{L}_{c s}^{R I}+\mathcal{L}_{c s}^{M a g}+\lambda \mathcal{L}_{c m}$$

$$公式5:\mathcal{L}_{c s}^{R I}=\left\|\tilde{S}_{r}^{c s}-S_{r}\right\|_{F}^{2}+\left\|\tilde{S}_{i}^{c s}-S_{i}\right\|_{F}^{2}$$

$$公式6:\mathcal{L}_{c s}^{M a g}=\left\|\sqrt{\left|\tilde{S}_{r}^{c s}\right|^{2}+\left|\tilde{S}_{i}^{c s}\right|^{2}}-\sqrt{\left|S_{r}\right|^{2}+\left|S_{i}\right|^{2}}\right\|_{F}^{2}$$

  其中$L_{cm}$和$L^{*}_{cs}$分別表示CME-Net和CSR-Net的損失函數。$\lambda$指的是權重損失系數,本文將其設置為0.1。注意,這里考慮了CSR-Net的兩種類型的損失,即RI損失和幅值損失。這種靈感可以從兩個方面來解釋。首先,當這些分量逐漸優化時,震級一致性不能保證,即估計的震級可能偏離其最優優化路徑[15]。其次,實驗表明,當設置幅值約束時,可以獲得一致的PESQ改善[16],這有助於語音質量。

2.4  后處理模塊

  在MSE作為損失函數的情況下,盡管語音質量有了顯著的改善,但殘余噪聲分量可能會變得非常不自然,這可能會降低主觀質量。為了通過深度學習方法提高增強語音的自然度,人們提出了許多函數,如尺度不變的信噪比(SI-SDR)[17]、語音質量評價的感知度量(PMSQE)[18]和具有殘差噪聲控制的MSE[19]。這些損失函數可以使殘余噪聲聽起來比MSE更自然,從而在一定程度上改善了語音質量。

  本文受[20,21,22]的啟發,采用類似於[21]的極低復雜度的深度學習方法來進一步抑制管道1輸出中的殘留噪聲。而不是使用 深度學習映射gain直接在管道 1 的估計純凈語音頻譜上,我們使用該增益作為語音存在概率 (speech presence probability,SPP) 的估計來遞歸地估計噪聲功率譜密度 (noise power spectral density,NPSD)。 使用估計的 NPSD,引入 MMSE-LSA 估計器來計算最終增益,然后用於抑制殘余噪聲。 為了進一步提高所提出的 PP 方案的魯棒性,我們在估計 NPSD 之前使用基於倒譜的預處理方案來抑制諧波分量。 通過這樣做,在大多數情況下可以避免 NPSD 的高估問題。

3  實驗

3.1  數據集

   在這項研究中,我們首先探索了 WSJ0-SI84 數據集 [23] 上不同模型之間的性能,以驗證所提出的兩階段網絡的性能優勢。然后該模型連同后處理一起使用 ICASSP 2021 DNS-Challenge 數據集進行訓練和評估,以評估其在更復雜和真實的聲學場景中的性能。對於 WSJ0-SI84、5428 和 957 個純凈的話語,分別選擇了 77 個說話者來建立用於訓練和驗證的數據集。對於測試集,選擇了 150 個話語。請注意,測試集中的說話者信息未經訓練。我們從 DNS-Challenge2 中隨機選擇 20,000 個噪聲,形成一個 55 小時的噪聲集用於訓練。為了測試,選擇了 4 個具有挑戰性的噪聲,即來自 NOISEX92 [24] 的 babble、cafe 和 white 以及來自 CHIME3數據集 [25] 的 factory1。在這項研究中,我們分別創建了 50,000 和 4000 個噪聲清潔對用於訓練和驗證,SNR 范圍從 -5dB 到 0dB。訓練總時長約為100小時。模型評估選擇了5個SNR,分別為-5dB、0dB、5dB、10dB和15dB。

  對於ICASSP 2021 DNS Challenge,考慮的聲學場景比INTERSPEECH 2020 DNS Challenge相對更復雜,包括混響效果、跨語言、情感和歌唱案例。 然而,許多提供的話語相對嘈雜,這會嚴重影響網絡的訓練收斂。 結果,我們丟棄了質量明顯較差的話語。 總的來說,我們生成了一個持續時間為 517 小時的大型訓練集,其中使用了大約 65,000 個提供的噪聲,SNR 范圍從 -5dB 到 25dB。 此外,考慮到真實環境中的混響效果,大約 30% 的話語在與不同的噪聲信號混合之前與 100,000 個提供的合成和真實房間脈沖響應 (RIR) 進行卷積。 在本研究中,混響時間 T60 的范圍為 0.3 到 1.3 秒。

3.2  超參數設置

  所有的聲音采樣在16kHz。采用20ms Hanning窗口,連續幀之間重疊50%。利用320點FFT提取光譜特征。兩個模型都由Adam[26]優化。當單獨訓練第一個模型時,初始化學習率(LR)設置為0.001。當兩個模型聯合訓練時,LRs分別設置為0.001和0.0001。batch size在語音級別設置為8。注意,為了減少DNS-Challenge數據集的訓練時間,我們直接對WSJ0-SI84上預訓練的模型進行微調,以幫助模型快速適應新的數據集。

3.3  對比模型

  在本研究中,我們將提出的兩階段網絡與另一個先進的5個基線,即CRN [27], DARCN [12], TCNN [28], GCRN[7]和DCCRN[29]進行比較,分別給出如下:

  • CRN:它是T-F域中的因果卷積循環網絡。編碼器和解碼器分別采用5個卷積塊和5個反卷積塊。序列建模采用2個LSTM層,1024個單元。在保持噪聲相位不變的情況下,只估計幅度。我們在[27]中保留了最好的配置,參數數量為17.58M。
  • DARCN:它是T-F域中的因果卷積網絡,將遞歸學習和動態注意機制結合在一起。將當前的估計輸出反饋給輸入,然后再利用網絡來細化下一階段的估計。我們將最佳配置保存在[12]中,參數個數為1.23M。
  • TCNN:它是在時域定義的因果編碼-TCMs-解碼器拓撲。原始波形既是輸入波形,也是輸出波形。我們在[28]中保持相同的配置,參數的數量為5.06M。
  • GCRN;它是CRN的高級版本,可以估計震級和相位。除了使用兩個解碼器進行RI估計外,它與CRN具有類似的拓撲結構。我們保持[7]中的最佳配置,參數數為9.06M
  • DCCRN:在Interspeech 2020 DNS-Challenge實時跟蹤中排名第一,其中CNN和RNN采用復數運算,使用SI-SDR作為損失函數。我們保持了[29]中的最佳配置,參數數量為3.72M。
  • TSCN:編解碼器部分設置5個(解卷積)塊,每層中間通道數為64個,時頻軸上核大小和步長分別為(2,3)和(1,2)。對於CME-Net,18個輕質TCM用於序列學習,而12個DTCM用於CSR-Net3。CME-NET的參數個數為1.96M,TSCN的參數個數為4.99M。

4  結果與分析

4.1  客觀評價

  我們使用兩個客觀度量來評估不同模型的性能,即PESQ[30]和Estoi[31],它們與人類的感知質量和可理解性密切相關。結果見表1和表2,可以觀察到后續現象。首先,建議的TSCN在PESQ和Estoi上都明顯超過了其他基線。例如,與最先進的方法DCCRN相比,TSCN在PESQ和Estoi方面的平均表現分別為0.14和1.77%。這表明了該方法的優越性能。其次,對於相對較高的信噪比,DCCRN似乎相對更有利。例如,在-5dB內,TSCN比DCCRN獲得了約0.23PESQ值的改善。然而,對於像15dB這樣的高信噪比,PESQ分數是相似的。第三,當應用PP時,這兩個度量的性能都會降低。這是因為這里設置PP是為了抑制一些令人不快的殘余噪聲分量,也可能會取消一些能量較低的語音分量。盡管如此,我們也認為實現PP是有益的,因為在低信噪比條件下,網絡可能會產生一些“假”的頻譜分量,這聽起來並不令人愉快。我們期望PP能夠有效地抑制負面影響,提高主觀質量,這一點將在下一節得到驗證。總體而言,提出的TSCN在客觀指標上取得了令人印象深刻的性能,促使我們將其與PP一起用於DNS挑戰評估

表1 基於PESQ的WSJ0-SI84數據集的客觀結果。加粗表示每種情況下的最佳結果。“cau”表示系統是否是因果執行

 

表2  在WSJ0- SI84數據集上的ESTOI(in %)的客觀結果。加粗 表示每種情況下的最佳結果

4.2  后處理的影響

  為了驗證PP的影響,我們進行了AB主觀測試,程序類似於[19]。10名志願者參與了測試。我們從DNS盲測試集中隨機選取了10個語料,其中情感語料2個,英語語料3個,非英語語料3個,唱歌語料2個。提供兩種處理類型,即TSCN和TSCN-PP。要求志願者選擇主觀質量較好的首選項目。如果不能做出決定,還提供“平等”選項。測試結果如圖所示。3.與TSCN相比,PP應用后,獲得了一致的主觀偏好。這表明客觀計量學和主觀選擇之間存在差距,即盡管由於PP丟失了頻譜信息而導致PESQ顯著下降,但由於抑制了最不自然的殘余噪聲,仍然獲得了一致的主觀偏好。有趣的是,這一結論與[32]中的研究是一致的。

圖 3. TSCN 和 TSCN-PP 之間的主觀評價測試。 如果不能做出決定,也提供平等的選擇。

4.3  在DNS-Challenge中的主觀評價

  在表3中,我們給出了組織者提供的符合ITU-TP.808標准[9]的主觀結果。我們的方法總體上比基線模型高出0.17個MOS分數。此外,該方法在歌唱、聲調和情感等特殊場景中也取得了令人印象深刻的表現,這些場景比傳統的語音情況要難處理得多。

  最后,我們對算法的處理時延進行了評估。在本研究中,窗口大小T=20ms,連續幀之間重疊ts=10ms。結果表明,算法時延td=T+ts=30ms,滿足時延要求。注意,這項研究沒有利用未來的信息,也就是說,系統是嚴格的因果關系。計算了TSCN-PP的平均處理時間為4.80ms,在Inteli5-4300U PC機上測試的TSCN-PP的平均處理時間為3.84ms。值得注意的是,盡管采用了兩級網絡,但由於我們將每個編碼器和解碼器的卷積通道數限制在64個,同時用可並行的TCM代替LSTM,所以推理效率仍然是有保證的

表3  基於P.808標准對DNS Challenge的主觀評價

5  結論

  在這個挑戰中,我們提出了一種新穎的去噪系統,它由一個兩級網絡和一個低復雜度的后處理模塊組成。對於兩級網絡,首先對幅值和相位進行解耦優化,即先粗略估計幅值,然后用第二級網絡精化相位信息;為了獲得更好的主觀質量,我們還提出了一種輕量級的后處理模塊來進一步抑制測試集與訓練條件不匹配時產生的剩余非自然殘余噪聲。主觀結果表明,對於ICASSP2021 DNS挑戰賽的實時軌道1,所提出的算法在MOS中排名第一

6  參考文獻

[1] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[2] Y. Xu, J. Du, L-R. Dai, and C-H. Lee, A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 23, no. 1, pp. 7 19, 2014.

[3] D. Wang and J. Chen, Supervised speech separation based on deep learning: An overview, IEEE/ACM Trans.Audio Speech Lang. Proc., vol. 26, no. 10, pp. 1702 1726, 2018.

[4] D. Wang and J. Lim, The unimportance of phase in speech enhancement, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 30, no. 4, pp. 679 681, 1982.

[5] K. Paliwal, K. W ojcicki, and B. Shannon, The importance of phase in speech enhancement, Speech Commun. , vol. 53, no. 4, pp. 465 494, 2011.

[6] D. Williamson and D. Wang, Time-frequency masking in the complex domain for speech dereverberation and denoising, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 25, no. 7, pp. 1492 1501, 2017.

[7] K. Tan and D. Wang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 28, pp. 380 390, 2020.

[8] A. D efossez, G. Synnaeve, and Y. Adi, Real Time Speech Enhancement in the Waveform Domain, in Proc. Interspeech 2020, pp. 3291 3295, 2020.

[9] C. Reddy, H. Dubey, V. Gopal, R. Cutler, S. Braun, H. Gamper, R. Aichner, and S. Srinivasan, ICASSP 2021 Deep Noise Suppression Challenge, arXiv preprint arXiv:2009.06122, 2020.

[10] W. Yu, Z. Huang, W. Zhang, L. Feng, and N. Xiao, Gradual network for single image de-raining, in Proc. of ACMM, 2019, pp. 1795 1804.

[11] A. Li, M. Yuan, C. Zheng, and X. Li, Speech enhancement using progressive learning-based convolutional recurrent neural network, Appl.Acoust. , vol. 166, pp. 107347, 2020.

[12] A. Li, C. Zheng, C. Fan, R. Peng, and X. Li, A recursive network with dynamic attention for monaural speech enhancement, in Proc. of Interspeech 2020, 2020.

[13] Y. Zhu, X. Xu, and Z. Ye, FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions, Appl. Acoust. , vol. 170, pp. 107511, 2020.

[14] S. Bai, J. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[15] S. Wisdom, J. Hershey, K. Wilson, J. Thorpe, M. Chinen, B. Patton, and R. Saurous, Differentiable consistency constraints for improved deep speech enhancement, in Proc. of ICASSP.IEEE, 2019, pp. 900 904.

[16] Z. Wang, P. Wang, and D. Wang, Complex spectral mapping for single-and multi-channel speech enhancement and robust ASR, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 28, pp. 1778 1787, 2020.

[17] J. L. Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, SDR Half-baked or well done? , in Proc. of ICASSP, 2019, pp. 626 630.

[18] J. M. Martin-Do nas, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, A deep learning loss function based on the perceptual evaluation of the speech quality, IEEE Signal Process. Lett. , vol. 25, no. 11, pp. 1680 1684, 2018.

[19] A. Li, R. Peng, C. Zheng, and X. Li, A supervised speech enhancement approach with residual noise control for voice communication, Appl. Sci. , vol. 10, no. 8, pp. 2894, 2020.

[20] M. Tammen, D. Fischer, B. T. Meyer, and S. Doclo, DNNbased speech presence probability estimation for multi-frame single-microphone speech enhancement, in Proc. of ICASSP, 2020, pp. 191 195.

[21] Jean-Marc Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in Proc. of MMSP. IEEE, 2018, pp. 1 5.

[22] X. Hu, S. Wang, C. Zheng, and X. Li, A cepstrum-based preprocessing and postprocessing for speech enhancement in adverse environments, Appl. Acoust. , vol. 74, no. 12, pp. 1458 1462, 2013.

[23] D. Paul and J. Baker, The design for the wall street journalbased CSR corpus, in Workshop on Speech and Natural Language, 1992, p. 357 362.

[24] A. Varga and H. Steeneken, Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems, Speech Commun. , vol. 12, no. 3, pp. 247 251, 1993.

[25] J. Barker, R. Marxer, E. Vincent, and S. Watanabe, The third chime speech separation and recognition challenge: Dataset, task and baselines, in Proc. of ASRU. IEEE, 2015, pp. 504 511.

[26] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.

[27] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement. , in Proc. of Interspeech, 2018, pp. 3229 3233.

[28] A. Pandey and D.Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. of ICASSP. IEEE, 2019, pp. 6875 6879.

[29] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement, in Proc. of Interspeech 2020, 2020, pp. 2472 2476.

[30] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs, in Proc. of ICASSP. IEEE, 2001, vol. 2, pp. 749 752.

[31] J. Jensen and C. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio Speech Lang. Proc., vol. 24, no. 11, pp. 2009 2022, 2016.

[32] J. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech, in Proc. of Interspeech 2020, 2020.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM