博客作者:凌逆戰
論文地址:DeepFilterNet:基於深度濾波器的全頻帶音頻低復雜度語音增強框架
論文代碼:https://github.com/Rikorose/DeepFilterNet
引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021.
摘要
復數處理將基於深度學習的語音增強和信號提取提升到一個新的水平。通常,將時頻 (TF) 掩膜應用於噪聲頻譜,而復數掩模(CM)通常比實值掩模更受青睞,因為它們能夠修改相位。最近的工作提出用一個復數濾波器代替掩碼的逐點乘法。這允許利用每個頻帶內的局部相關性,將以前和將來的時間步長的信息合並到一起。
在這項工作中,我們提出了DeepFilterNet,一個利用深度濾波器的兩階段語音增強框架。首先,我們使用模擬人類頻率感知的 ERB-scale gain來增強頻譜包絡。第二階段采用Deep filtering 增強語音的周期性成分。除了利用語音的感知特性之外,我們還通過深度分離卷積、分組線性網絡、分組循環網絡 來強制網絡稀疏性,以設計一個低復雜度的架構。
我們進一步表明,我們的兩階段深度濾波方法在各種頻率分辨率和延遲上都優於復數掩碼,並且與其他最先進的模型相比,表現出令人信服的性能。
關鍵詞:deep filtering、語音增強
1 引言
單聲道語音增強是許多系統的重要組成部分,如自動語音識別、視頻會議系統以及輔助聽設備。大多數最先進的方法都是在短時傅里葉變換(STFT)表示中工作,並使用深度神經網絡估計TF mask,其中許多是實值掩模[1,2,3]或復數掩模[4,5,6,7]。為了提高網絡訓練的穩定性,估計的掩碼通常是定義良好的,並受一個上界的限制(0~1)。然而,通常情況下,這兩種方法都會降低頻率分辨率,以消除語音諧波之間的噪聲。上述方法在至少20 ms的窗口上工作,導致最低頻率為50 Hz。
在本文中,我們提出了一個基於深度濾波器(DF)的開源語音增強框架[8,9]。我們使用實值增益和深度濾波器組合,而不是在每個TF-bin上應用復數掩模。第一階段,因為噪聲和語音通常有一個平滑的頻譜包絡。我們使用一個等效的矩形帶寬(Equivalent Rectangular Bandwidth,ERB)濾波器組將輸入和輸出size降低到只有32個頻帶,並設計一個計算量小的編碼器/解碼器網絡。由於最終得到的100 Hz到250 Hz的最小帶寬(取決於FFT size)通常不足以增強周期分量。因此在第二階段,我們使用深度濾波器網絡估計頻率區間的系數,直到頻率上限$f_{DF}$。將得到的線性復數濾波器應用於它們相應的頻率區間。 DF 增強僅適用於較低頻率,因為周期性語音分量在較低頻率中包含大部分能量。
深度濾波器首先由Mack et al.[8]和Schr oter et al.[9]提出。由於濾波器應用於多個T-F bin,DF能夠恢復信號退化,如缺口濾波器(notch-filters)或時間幀歸零(time-frame zeroing)。Schroter等人[9]將這種方法作為復雜線性編碼(Complex Linear Coding,CLC)引入到低延遲助聽器的應用中。CLC的動機是它能夠模擬語音的准靜態特性。也就是說,即使在500 Hz的頻率帶寬下,CLC也能夠在一個頻帶內降低噪聲,同時保留語音成分。當一個頻率庫中有多個語音諧波或用於過濾周期性噪聲時,這特別有用。最近的工作表明,[7]使用深度濾波器在深度噪聲抑制挑戰[10]中表現良好。然而,與他們之前使用復雜比率掩碼(CRM)的工作[11]相比,他們的改進主要是通過網絡架構的改變,如復數 LSTM或卷積。
在這項工作中,我們證明了從4 ms到30 ms的多種FFT大小的CRMs深度濾波器的優越性能。我們進一步表明,即使對於低延遲要求,例如5毫秒,從而產生250 Hz的頻率分辨率($\triangle f=\frac{f_s}{N}=\frac{1}{t}$,其中采樣頻率為$f_s$,采樣時間間隔為t,采樣點數為N),DF仍然可以增強周期性語音成分。
2 DeepfilterNet
2.1 信號模型
設$x(t)$為在嘈雜房間中錄制的混合信號。
$$公式1:x(t)=s(t)*h(t)+z(t)$$
式中,$s(t)$為純凈語音信號,$h(t)$為揚聲器對麥克風的室內脈沖響應,$z(t)$為已包含混響環境的加性噪聲信號。通常,降噪是在頻域進行的
$$公式2:X(k,f)=S(k,f)·H(k,f)+Z(k,f)$$
其中$X(k,f)$是時域信號$x(t)$的STFT結果,$k$和$f$分別是時間和頻率bin 索引。
2.2 Deep Filtering
Deep Filtering被定義為 TF域的 復數濾波器:
$$公式3:Y(k, f)=\sum_{i=0}^{N} C(k, i, f) \cdot X(k-i+l, f)$$
其中$C$是濾波器階數為$N$的復數系數,濾波器應用於輸入頻譜$X$,$Y$為增強頻譜。在我們的框架中,Deep Filtering應用於 gain-enhanced spectrogram$Y^G$。$l$是一個可選的look-ahead(前瞻),如果$l\geq 1$,它允許將非因果抽頭合並到線性組合中。此外,還可以在頻率軸上進行過濾,允許合並相關性,例如 重疊頻帶。
為了進一步保證Deep Filtering只影響周期部分,我們引入了一個學習到的加權因子$\alpha$來生成最終輸出頻譜。
$$公式4:Y^{D F}(k, f)=\alpha(k) \cdot Y^{D F^{\prime}}(k, f)+(1-\alpha(k)) \cdot Y^{G}(k, f)$$
2.3 框架概述
DeepFilterNet 算法的概述如圖 1 所示。給定一個嘈雜(noisy)的音頻信號$x(t)$,我們使用短時傅立葉變換 (STFT) 將信號轉換到頻域。 該框架處理 48 kHz 采樣率的音頻,以支持高分辨率 VoIP 應用程序和介於 4 ms 和 30 ms 之間的 STFT 窗口大小$N_{FFT}$。 默認情況下,我們使用$N_{ov} = 50\%$的重疊,但也支持低延遲場景的更高重疊。 我們為深度神經網絡 (DNN) 使用兩種輸入特征。
- 對於 ERB 編碼器/解碼器特征$X_{ERB}(k,b)$,$b\in [0, N_{ERB}]$,我們計算對數功率譜,使用衰減為 1 s 的指數均值歸一化(exponential mean normalization) [12],並應用具有可配置頻段數目$N_{ERB}$的矩形 ERB 濾波器組 (FB)。
- 對於深度濾波器網絡特征$X_{DF}(k,f'), f'\in [0, f_{DF}]$,我們使用復數譜作為輸入,並使用具有相同衰減的指數單位歸一化(Exponential Unit Normalization) [9] 對其進行歸一化。

圖1所示:DeepFilterNet算法概述。第1階段用藍色表示,第2階段用黃色表示
編碼器/解碼器體系結構用於預測ERB gain。利用逆ERB濾波器組將gain變換回頻域維度,然后與噪聲譜進行點乘。為了進一步增強周期分量,DeepFilterNet預測每頻帶濾波器系數$C^N$的階數。我們只使用深度濾波器到頻率$f_{DF}$,假設周期成分包含大部分能量在較低的頻率。
再加上卷積層的look-ahead和deep filter的look-ahead,得到整體延遲為$l_{N_{FFT}}+max(l_{DNN}, l_{DF})$,結果在$N_{FFT}$ = 240時,最小延遲為5 + max(0,0) = 5 ms。
2.4 DNN模型
我們專注於設計一個只使用標准DNN(如卷積、批處理歸一化、ReLU等)的高效神經網絡,這樣我們就可以利用層融合以及推理框架的良好支持。我們采用類似於[13,7]的UNet架構,如圖2所示。我們的卷積塊包含一個深度可分離卷積,核大小為(3x2), 通道C為64,然后是批歸一化和ReLU激活。卷積層在時間上對齊,這樣第一層可以引入一個整體的look-ahead $l_{DNN}$。我們在線性和GRU層中大量使用分組(grouping)[14,13]。分組輸出被shuffle以恢復組間相關性,並再次concatenated(串聯)到完全隱藏的大小。帶有add skip connection的卷積pathways [13,7]用於保持頻率分辨率。我們為DF Net使用了一個全局路徑跳過連接,以在輸出層提供原始噪聲相位的良好表示。

圖2所示:DeepFilterNet架構概述
我們使用1x1路徑卷積(PConv)作為add-skip連接和轉置卷積塊(TConv),類似於編碼器塊
利用分組線性和GRU (GLinear, GGRU)引入稀疏性
2.5 數據處理
DeepFilterNet框架利用大量的實時增強功能。我們在信噪比(SNR)為{-5,0,5,10,20,40}dB的情況下,將一個純凈的語音信號與多達5個噪聲信號混合。為了進一步增加變量,我們使用二階濾波器[1]、EQs和{-6,0,6}dB的隨機增益來增強語音信號和噪聲信號。隨機重采樣增加了音高的多樣性,室內脈沖響應(RIR)用於模擬混響環境。如果語音信號的采樣率低於當前模型的采樣率,則在混合前對噪聲信號應用低通濾波器。例如,這也允許在全頻帶音頻(48 kHz)上訓練的模型在低采樣率的輸入信號上同樣表現良好。我們進一步支持訓練衰減有限模型。因此,我們生成一個噪聲目標信號$s$,它的信噪比比噪聲信號$x$高6到20 dB。在訓練期間,我們對預測增益$G$進行clamp,並設定一個有噪聲的目標$s$,DF Net將學習不去除超過規定的噪聲。這在可穿戴設備上很有用,因為我們想讓用戶保持一些環境意識。
2.6 損失函數
提供理想的DF系數$C^N$並非易事,因為有無限多的可能性[8]。相反,我們使用compressed(壓縮)頻譜損失來隱式學習ERB增益$G$和濾波器系數$C^N$[15,13]。
$$公式5:\mathcal{L}_{s p e c}=\sum_{k, f}\left\||Y|^{c}-|S|^{c}\right\|^{2}+\sum_{k, f}\left\||Y|^{c} e^{j \varphi_{Y}}-|S|^{c} e^{j \varphi_{S}}\right\|^{2}$$
其中,$c=0.6$是建模感知響度的壓縮因子[16]。由於具有幅值和相位感知項,使得該損失既適用於建模實值增益,也適用於復數DF系數預測。為了使幅值接近於零的TF bin的梯度harden(加速,變嚴格)(例如,對於采樣率較低的輸入信號),我們計算$\varphi_X$的向后角度方法,如下所示:
$$公式6:\frac{\delta \varphi}{\delta X}=\delta X \cdot\left(\frac{-\Im\{X\}}{\left|X_{h}\right|^{2}}, \frac{\Re\{X\}}{\left|X_{h}\right|^{2}}\right)$$
式中$\Re\{X\}$和$\Im\{X\}$表示頻譜X的實部和虛部,$|X_h|^2=max(\Re\{X\}^2+\Im\{X\}^2,1e^{-12})$平方數量級以避免被0除。
作為額外的損失項,我們強制DF分量只增強信號的周期性部分。動機如下。對於只有噪音的部分,DF不提供任何優於ERB增益的好處。DF甚至可能通過對周期性噪聲(如發動機噪聲或巴布噪聲)進行建模而產生偽影,這在衰減受限模型中最為明顯。此外,對於只有隨機成分的語音,如摩擦音或爆破音,DF沒有任何好處。假設,這些部分包含大部分的高頻率能量,我們計算低於$f_{DF}$頻率的局部SNR。因此,$L_{\alpha}$由下式給出:
$$公式7:\mathcal{L}_{\alpha}=\sum_{k}\left\|\alpha \cdot \mathbb{1}_{\mathrm{LSNR}<-10 \mathrm{~dB}}\right\|^{2}+\sum_{k}\left\|(1-\alpha) \cdot \mathbb{1}_{\mathrm{LSNR}>-5 \mathrm{~dB}}\right\|^{2},$$
其中,當局部信噪比(LSNR)小於10 dB時,$\mathbb{I}_{\text {LSNR }}<-10 \mathrm{~dB}$為值為1的特征函數;當局部信噪比大於-5 dB時,$\mathbb{I}_{\text {LSNR }}>-5 \mathrm{~dB}$為1。在20ms窗口范圍內,在頻域中計算LSNR。綜合損失由
$$公式8:\mathcal{L}=\lambda_{\text {spec }} \cdot \mathcal{L}_{\text {spec }}(Y, S)+\lambda_{\alpha} \cdot \mathcal{L}_{\alpha}$$
3 實驗
3.1 訓練步驟
我們基於深度噪聲抑制(DNS)挑戰數據集[10]訓練我們的模型,該數據集包含超過750小時的全頻帶純凈語音和180小時的各種噪聲類型。除了提供的在16 kHz采樣的RIR外,我們使用image source模型[17]模擬了另外10 000個在48 kHz采樣的RIR。我們將數據集分為train/validation/test(70/15/15%)。根據驗證損失應用早期停止,結果在測試集中報告。Voice Bank/DEMAND測試集[18]用於比較DeepFilterNet與相關工作,如DCCRN(+)[11,7]和PercepNet[2]。
所有實驗都使用采樣率為48khz的全頻帶信號。我們取$N_{NRB}$= 32,$f_{DF}$ = 5 kHz,DF階數N = 5,對DF和DNN卷積都取$l=1$幀。我們用一個初始學習率為$1*10^{-3}$的adam優化器,訓練我們的模型在3 s樣本和32個batch的30個epoch。學習率每3個epoch衰減0.9。損失參數為$\lambda_{spec} = 1$和$\lambda_\alpha = 0.05$。框架的源代碼可以在 https://github.com/Rikorose/DeepFilterNet 獲得。
3.2 結果
我們評估了我們的框架在多種FFT大小上的性能,並基於尺度不變的信號失真率(SI-SDR)比較了DF和CRM的性能[19]。CRM是DF的特例,階數$N=1$,look-ahead $l=0$。DNN前瞻對於CRM模型保持不變。
圖3顯示,在5 ms到30 ms的所有FFT大小中,DF都優於CRM。由於受到頻率分辨率的限制,當FFT窗口大小為20 ms時,CRMs的性能會下降。另一方面,由於相鄰幀間的相關性較小,DF相對恆定的性能下降了約30 ms。對於低延遲場景,將FFT重疊提高到75%會使DF和CRM的性能略有提高(輸入SNR為0時,性能為+0.6 dB SI-SNR)。這種性能的提高可以解釋為更高的幀內相關性,以及DNN更新RNN隱藏狀態的步驟增加了一倍,但計算復雜度增加了一倍。圖4給出了一個定性的例子,說明了DF重構噪聲譜圖中難以區分的語音諧波的能力。

圖3所示。深度濾波器(DF)和常規復比掩模(CRM)在5 ~ 30 ms的多個FFT尺寸上的比較

圖4所示 來自Voice Bank測試集的樣本。噪聲(a), CRM增強(b), DF增強(c) (CRM和DF的NFFT = 960)
我們比較了使用NFFT=960 (20 ms)的DeepFilterNet和相關的工作,如PercepNet[2],它使用類似的感知方法,以及DCRNN+[7],它也使用深度濾波器。我們使用WB-PESSQ[20]評估語音增強的質量,並比較每秒乘法和累積(MACS)的計算復雜度。表1顯示,DeepFilterNet優於PercepNet,性能與DCRNN+相當,同時具有更低的計算復雜度,使DeepFilterNet能夠用於實時使用。
表1 Voice Bank/REMAND測試集的客觀結果

4 結論
在這項工作中,我們提出了DeepFilterNet,一個低復雜度的語音增強框架。我們證明了深度過濾網的性能與其他算法相當,而計算量要求要低得多。我們進一步提供了深度過濾優於CRM的證據,特別是在較小的STF窗口大小的情況下。
5 參考文獻
[1] Jean-Marc Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.
[2] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech, in INTERSPEECH 2020, 2020.
[3] Xu Zhang, Xinlei Ren, Xiguang Zheng, Lianwu Chen, Chen Zhang, Liang Guo, and Bing Yu, Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss, in Proc. Interspeech 2021, 2021, pp. 2826 2830.
[4] Donald S Williamson, Monaural speech separation using a phase-aware deep denoising auto encoder, in 2018 IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2018, pp. 1 6.
[5] Ke Tan and DeLiang Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6865 6869.
[6] Jonathan Le Roux, Gordon Wichern, Shinji Watanabe, Andy Sarroff, and John R Hershey, Phasebook and friends: Leveraging discrete representations for source separation, IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 370 382, 2019.
[7] Shubo Lv, Yanxin Hu, Shimin Zhang, and Lei Xie, DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement, in INTERSPEECH, 2021.
[8] Wolfgang Mack and Emanu el AP Habets, Deep Filtering: Signal Extraction and Reconstruction Using Complex Time-Frequency Filters, IEEE Signal Processing Letters, vol. 27, pp. 61 65, 2020.
[9] Hendrik Schr oter, Tobias Rosenkranz, Alberto Escalante Banuelos, Marc Aubreville, and Andreas Maier, CLCNet: Deep learning-based noise reduction for hearing aids using complex linear coding, in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.
[10] Chandan KA Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, INTERSPEECH 2021 Deep Noise Suppression Challenge, in INTERSPEECH, 2021.
[11] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement, in INTERSPEECH, 2020.
[12] Hendrik Schr oter, Tobias Rosenkranz, Alberto N. Escalante-B. , Pascal Zobel, and Andreas Maier, Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks, in INTERSPEECH 2020, 2020.
[13] Sebastian Braun, Hannes Gamper, Chandan KA Reddy, and Ivan Tashev, Towards efficient models for real-time deep noise suppression, in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 656 660.
[14] Ke Tan and DeLiangWang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 380 390, 2019.
[15] Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T Freeman, and Michael Rubinstein, Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation, ACM Transactions on Graphics (TOG), vol. 37, no. 4, pp. 1 11, 2018.
[16] Jean-Marc Valin, Srikanth Tenneti, Karim Helwani, Umut Isik, and Arvindh Krishnaswamy, Low- Complexity, Real-Time Joint Neural Echo Control and Speech Enhancement Based On PercepNet, in 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.
[17] Emanu el AP Habets and Sharon Gannot, Generating sensor signals in isotropic noise fields, The Journal of the Acoustical Society of America, vol. 122, no. 6, pp. 3464 3470, 2007.
[18] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, Investigating RNN-based speech enhancement methods for noise-robust Text-to- Speech, in SSW, 2016, pp. 146 152.
[19] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and John R Hershey, SDR half-baked or well done? , in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626 630.
[20] ITU, Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Recommendation P.862.2, 2007.
