論文翻譯:2020_DTLN:Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression


論文地址:雙路信號變換LSTM網絡的實時噪聲抑制

論文代碼:https://github.com/breizhn/DTLN

引用格式:Westhausen N L, Meyer B T. Dual-signal transformation LSTM network for real-time noise suppression[J]. arXiv preprint arXiv:2005.07551, 2020.

摘要

  本文介紹了一種用於實時語音增強的雙信號變換LSTM網絡(DTLN),作為深度噪聲抑制挑戰(DNS-Challenger)的一部分。這種方法結合了短時傅里葉變換(STFT)和已有的分析和綜合基礎,采用了參數小於100萬的堆疊網絡方法。這個模型在挑戰者或組織者提供的500小時的帶噪語音中進行了訓練。該網絡能夠實時處理(一幀輸入,一幀輸出),並達到較好的結果。結合這兩種信號變換,DTLN可以穩健地從幅度譜中提取信息,並從學習的特征庫中合並相位信息。該方法顯示了最先進的性能,並且比DNS挑戰基線高出平均意見得分(MOS)0.24分的絕對值。

關鍵字:噪聲抑制、深度學習、實時、語音增強、音頻

1  引言

  噪聲抑制是語音增強領域的一門重要學科;例如,在家工作的場景中,魯棒和有效的噪聲降低可以提高通信質量,從而減少視頻會議的認知努力,這是特別重要的。隨着深度神經網絡的興起,提出了幾種基於深度模型的音頻處理方法[1,2,3,4]。然而,這些通常是為脫機處理開發的,脫機處理不需要實時能力或考慮因果關系。這種模型處理完整的序列,並利用信號的過去和將來的信息來抑制不需要的信號部分。經典的信號處理算法[5,6]通常在采樣或幀級工作,以提供低的輸入輸出延遲。在設計基於框架的神經網絡算法時,循環神經網絡(RNN)是一個常見的選擇。RNNs在語音增強[7,8]和語音分離[9,10,11]方面都取得了令人信服的結果。長期短期記憶網絡(LSTM)[12]代表了分離[13]的最新技術。性能最好的網絡通常是通過使用雙向LSTM以非因果方式構建的,在這種方式中,時間序列也是在反向方向上進行因果處理的。雙向RNN總是需要完整的序列作為輸入,因此基本上不適合實時幀處理。

  deep-noise-suppression challenge (DNS-Challenge)[14]的基線系統稱為NSNet[15],也是基於RNN層,通過計算每個輸入幀一個輸出幀提供實時能力。該模型基於帶噪語音信號的短時傅立葉變換(STFT)的對數功率譜,預測應用於帶噪聲時間傅立葉變換的增益或掩模。利用噪聲混合信號的估計幅度和相位,對預測的語音信號進行重構。這種方法產生了一個競爭的基線系統,但它不包含任何相位信息,這可能有助於提高語音質量。不同的方法處理相位估計,如估計STFT實部和虛部的掩模,而不是幅度[16]或計算迭代相位重建[17]。[11, 18, 19]等研究表明,在學習分析和綜合基礎上的說話人分離任務有希望的結果,而不是解耦的量級和相位信息。表示是通過將時域幀與學習過的基函數相乘來計算的。該方法也被應用到[20]中,用於語音和噪聲的分離。

  當前研究的動機是通過使用堆疊的雙信號變換LSTM網絡(DTLN)將分析和綜合方法合並到一個模型中。堆疊或級聯網絡已經在Deep Clustering speaker separation approach[9]中使用,在分離網絡之后添加了一個額外的增強網絡。在相關研究中,采用級聯模型對[19]進行去噪和去混響。本文提出的模型級聯了兩個分離核,第一個具有STFT信號轉換,而第二個使用了類似於[18]的學習信號表示。這種組合是第一次在降噪環境中進行探索,由於經典和學習的特征轉換的互補性,可以提供有益的效果,同時保持相對較小的計算足跡。與之前大多數提出的LSTM網絡相比,本文的堆疊網絡要小得多,並且在計算復雜度方面保證了實時性。

2  方法

2.1  信號轉換

  在說話人分離中,通常選擇時頻掩蔽的方法來分離說話人的信號。噪聲抑制是一個相關的源分離問題,但它的不同之處在於它只返回語音信號並丟棄噪聲。在時頻域中,分離問題可以表示如下:麥克風信號$y$被描述為

$$y[n]=x_s+x_n$$

其中,$x_s$和$x_n$分別是時間信號的語音分量和噪聲分量。

  在噪聲抑制任務中,期望的信號是語音信號。當用復時頻表示(TF)對信號$y$進行短時傅里葉變換時,可以預測估計的語音信號$\hat{X}_s$的TF表示為:

$$公式2:\hat{X}_{s}(t, f)=M(t, f) \cdot|Y(t, f)| \cdot e^{j \phi y}$$

其中$|Y|$是$y$的幅度譜。$M$是應用於$Y$的掩碼(掩碼值從0到1),而$e^{j\phi y}$是噪聲信號的相位。$\hat{x}_s$現在可以通過與$\hat{X}_s$相反的短時傅里葉變換回來。在該公式中,使用噪聲信號的相位來預測干凈的語音信號。

  DTLN的第二個信號變換是由Luo和他的同事首次提出的[11]。該方法將混信號分割成長度為L、幀索引為$k$的重疊幀$y_k$,並將這些幀乘以具有$N×L$個學習基函數的$U$:

$$公式3:w_k=y_kU$$

創建尺寸為N×1、幀為$y_k$的特征表達$w_k$。為了從$w_k$恢復語音表示$d_k$,可以估計給定的掩碼$m_k$。

$$公式4:\hat{d}_k=m_k·w_k$$

其中$\hat{d}_k$是估計的語音信號的索引$k$處的特征表示。$\hat{d}_k$可以通過以下方式轉換回時域

$$公式5:\hat{x}_k=\hat{d}_kV$$

其中$V$包含長度為$L$的$N$個學習基函數。$\hat{x}_k$是索引$k$處的估計幀。通過使用重疊相加過程來重構估計時間信號$\hat{x}_s$。

2.2  模型架構

   本文介紹的堆疊式雙信號變換LSTM網絡結構具有兩個分離核心,其中包含兩個LSTM層,然后是一個全連接(FC)層和一個用來產生掩模輸出的Sigmoid激活。第一個分離核心使用STFT和合成,將FC層輸出經過sigmoid得到掩膜,掩膜與輸入的幅度譜相乘等到增強幅度譜,並利用輸入(帶噪語音)的相位將其變換回時域,但不重建波形。來自第一網絡的幀由1D-Conv層處理以創建特征表示。特征表示在被饋送到第二分離核心之前由歸一化層處理。第二核的預測掩碼與特征表示相乘,結果輸入1D-Conv層,用於將估計的表示轉換回時域。在最后一步中,使用重疊相加過程重建信號。該結構如圖1所示

  為了考慮模型的實時性,采用了瞬時層歸一化(ILN)方法。瞬時層歸一化類似於標准層歸一化[21],並在[22]中作為逐通道的層歸一化引入。所有幀都被單獨歸一化,而不會隨時間累積統計數據,並且使用相同的可學習參數進行縮放。在當前的工作中,該歸一化方案被稱為瞬時層歸一化,以區別於累積層歸一化[18]

 

圖1  建議的網絡架構的說明

左邊的處理鏈顯示了使用STFT信號變換的第一個分離核心,而右邊的構建塊代表了基於1D-Conv層的學習過的特征變換的第二個核心

2.3  數據集

  訓練數據集是由DNS-Challenge提供的音頻數據集。語音數據屬於librisspeech語料庫[23]的一部分,噪聲信號來源於Audioset語料庫[24]、Freesound和DEMAND語料庫[25]。使用提供的腳本創建了500h的數據。默認的信噪比范圍(0到40 dB)被更改為-5到25 dB,以包含負信噪比並限制總范圍。為了覆蓋更細粒度的信噪比分布,信噪比級別的數量從5個增加到30個。所有其他參數保持不變。500h的數據集被分為訓練數據(400 h)和交叉驗證數據(100 h),這相當於普通的80:20%的分割。所有訓練數據在16khz采樣。

  挑戰組織者還提供了一個包含四個不同類別的測試集,每個類別包含300個樣本。這些類別是合成剪輯沒有混響,合成剪輯與混響,真實的錄音收集在微軟內部和真實的錄音從Audioset。合成數據來自格拉茨大學的干凈語音數據集[26]。合成數據的信噪比隨機分布在0 ~ 25 dB之間。在微軟的多個房間中測量混響數據的脈沖響應,混響時間(RT60)從300 ms到1300 ms。此外,組織者還創建了一個盲測試集,並在ITU P-808[27]設置中進行了評估。[14]提供了訓練和測試集的完整細節。

  為了正確估計混響環境中所有客觀測量的性能,使用了采樣頻率為16 kHz的WHAMR語料庫[19]混響單揚聲器和噪聲測試集。我們轉向這個數據集是因為一些客觀的測量需要適當延遲但干凈的參考信號來進行正確的計算。由於DNS-Challenge測試集中沒有提供這些信號,我們使用了WHAMR數據集,該數據集具有干凈的無混響語音文件,可以解釋脈沖響應的延遲。使用的WHAMR試驗台由3000種混合物組成。語音文件取自於WSJ0-mix語料庫[28],該語料庫經常用於說話人分離。用Pyroomacoustics[29]模擬了RT60在100 ~ 1000 ms之間的房間脈沖響應,並將其與語音文件進行了卷積。這些噪音包括咖啡館、餐館、酒吧、辦公樓和公園等真實場景的錄音。相對於語音,信噪比在-3到6db之間。

2.4  模型設置和訓練步驟

  本文中DTLN的四層LSTM層各有128個單元。幀大小為32毫秒,幀移為8毫秒。FFT大小為512,等於幀長。用於創建學習特征表示的1D-Conv層有256個濾波器在訓練過程中,在LSTM層之間應用了25%的dropout。Adam優化器使用的學習速率為10e-3和梯度norm clipping 3。如果連續三個階段驗證集的損失沒有改善,學習速率將減半。如果驗證集的損失在10個時期內沒有減少,則應用提前停止。模型以32個批次進行訓練,每個樣本長度為15 s。在Nvidia RTX 2080 TI上,一個訓練階段的平均時間約為21分鍾。

  以尺度敏感負信噪比(scale-sensitive negative SNR)[20]作為訓練目標。與尺度不變信噪比(SI-SNR)[11]相比,它應該避免輸入混合語音和預測純凈語音之間可能存在的水平偏移,這是實時處理系統中所需要的。此外,由於它是在時域中工作的,因此可以隱式地考慮相位信息。而作為訓練目標的語音信號的估計值和干凈幅度STFT之間的均方誤差不能在優化過程中使用任何相位信息。

2.5  基線

  第一個基線是由挑戰組織者提供的噪音抑制網絡(NSNet)。NSNet在頻域上采用基於MSE的語音失真加權損失進行優化,並在84 H的語音和噪聲混合語料庫上進行訓練。該算法由三個具有256門控循環單元(GRU)[30]的循環層和一個具有sigmoid激活的全連接層組成。幀大小為20毫秒,幀位移為10毫秒。GRU類似於LSTM,但沒有隨時間變化的細胞狀態。

  此外,我們的DTLN方法與四個與所提出模型具有相同訓練設置的模型進行了比較:第一個和第二個模型由四個LSTM層組成,后面是一個完全連接的層,該層具有sigmoid激活來預測掩模。第一個(B1)使用STFT和合成,而B2使用256個可學習偏置。第三種模型(B3)和第四種模型(B4)是類似於所提出方法的堆疊模型。B3的兩個分離核都使用STFT。對於兩個分離核,B4都有一個大小為256的學習過的特征庫。選擇LSTM層的大小是為了在參數數量上獲得與DTLN方法相似的大小。表1中再次顯示了配置。

表1:建議的DTLN方法和基線系統中每層參數和RNN單元的數量

2.6  客觀和主觀評價

  為了比較DTLN方法和基線,我們使用了三種客觀度量,即語音質量的感知評價(PESQ)[31],比例不變信號失真比(SI-SDR)[32]和短時間客觀可解性度量(STOI)[33]。

  主觀評估是在微軟實施和組織的亞馬遜土耳其機械(AMT)上使用ITUT P.808設置進行的。總共有兩次評估運行,一次是在DNSChallenge的已知測試數據集上,一次是在稍后提供的盲測試集上。在第一輪和第二輪審理中,每一份文件分別由5到10名法官評議。

3  結果

  客觀評價結果如表2所示,主觀評價結果如表3所示。結果如下所示

表2:根據無混響測試集的PESQ [MOS]、SI-SDR [dB]和STOI [%], DNS挑戰的混響測試集和WHAMR語料庫的混響單混合測試集的結果

表3:DNS-Challenge已知盲測試集的MOS主觀評分。已知測試集和盲測試集的總體95%置信區間分別為0.04和0.02

  無混響DNS-Challenge測試集的客觀結果:在無混響條件下,所有模型對噪聲條件都有改進。NSNet優於DTLN和所有附加基線。在500小時的數據上訓練的所有模型都產生了類似的結果。DTLN網絡在PESQ、SI-SDR和STOI方面的效果最好。B3和DTLN的高值表明了堆疊模型的強度。盡管B4也是一個堆疊模型,但它的表現相當糟糕,這在第4節中進行了討論。

  混響DNS-Challenge測試集的客觀結果:在此條件下,結果不如無混響條件下清晰。在PESQ方面,只有B4比噪聲條件略有改善。對於SI-SDR,所有模型都有改善,而STOI預測原始噪聲條件下的質量最高。關於侵入式或雙端措施的一個問題是,它們需要一個參考信號,在這種情況下,就是混響干凈的講話。有了這個參考信號,任何語音增強模型的潛在去everberation效應都會導致客觀測量值的下降,這可能是這些結果的一個重要因素。

  WHAMR測試集的客觀結果:所有的方法都顯示出比噪聲條件下的改善,DTLN方法獲得的分數最好。B3再次達到了相似的性能水平。基線顯示,對於所有的客觀測量,都有輕微的改善。需要指出的是,該語料庫中使用的混合語料在0左右的信噪比范圍更小,因此對模型來說是一個更有挑戰性的條件。

  DNS-Challenge測試集的主觀結果:已知無混響測試集的主觀結果與客觀結果一致。對於混響測試集,主觀評價對DTLN有明顯的好處,但除SI-SDR外,其他客觀指標沒有反映出這一點。在主觀數據中也觀察到混響條件下PESQ和STOI預測的NSNet質量下降。在已知條件和盲條件下,與真實記錄的結果一致。

  執行時間的結果:在DNSChallenge環境下,測量了一個32 ms幀在四核I5 6600K CPU上的執行時間。測量是通過處理一個完整的序列或使用逐幀處理來完成的。序列處理和幀處理的執行時間分別為0.23 ms和2.08 ms。序列處理和幀處理之間的巨大差異可以用Keras中調用模型進行預測的開銷來解釋。將模型轉換為Tensorflow的SavedModel格式可以將逐幀處理的執行時間減少到0.65 ms,這是一個很大的改進。但是,序列處理時間要低近三倍,這顯示了CPU上的潛在性能。

4  討論

  在下面,我們首先討論基線系統之間的差異,這對DTLN系統的組件也有影響。非混響、混響和WHAMR測試的結果顯示,系統B1和B3(使用STFT特征)比系統B2和B4(使用學習特征表示)的結果更好。STFTs更好的性能的一個潛在原因是跨網絡、固定數量的參數,由於STFT是固定的和基於規則可能B1和B3利用高可用的參數數量LSTM層相比learned-feature方法。

  其次,我們假設短時傅立葉變換特征對噪聲輸入具有更高的魯棒性,因為相位信息(在高噪聲條件下是無用的)被丟棄了。反之亦然,使用學習特征的網絡必須隱式地確定幅度和相位信息的掩碼。造成這種差異的另一個可能的原因可能是本文中學習到的特征表示所執行的壓縮。學習后的特征表示將512個音頻樣本映射為大小為256的特征表示。特征表示的大小越大,則會消耗更多的參數,經驗表明,特征表示的減少對所提模型的語音質量沒有太大的影響。

  結果還表明,與純STFT系統相比,使用STFT和學習特征變換的疊加網絡使用更少的LSTM單元,可以略微改善整個基線系統。LSTM單元在計算上更復雜,因為全連接層或1D-Conv層,也就是說,對於這種網絡類型,減少單元是特別需要的。然而,DTLN與相關系統(B1-B4)在客觀度量方面的相對較小的差異也表明,部分性能是由大量的訓練數據和訓練設置產生的。

5  總結

  本文介紹了一種基於堆疊雙信號變換LSTM網絡的噪聲抑制方法,該網絡在大規模數據集上進行訓練,以實現實時增強。在堆疊網絡方法中,我們能夠展示使用兩種類型的分析和綜合基的優勢。DTLN在嘈雜的混響環境中工作良好。盡管我們將基本訓練設置與簡單的架構相結合,但我們觀察到,相對於噪聲條件,MOS在所有主觀評價方面的絕對提高了0.22。

6  致謝

  這項研究是由DFG。該架構的一部分是在Nvidia GPU Grant計划捐贈的GPU上開發的。感謝來自微軟的挑戰賽組織者組織了dns挑戰賽,並提供了數據和腳本

7  參考文獻

[1] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal processing letters, vol. 21, no. 1, pp. 65 68, 2013.

[2] K. Han, Y. Wang, and D. Wang, Learning spectral mapping for speech dereverberation, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014, pp. 4628 4632.

[3] S. Pascual, A. Bonafonte, and J. Serra, Segan: Speech enhancement generative adversarial network, arXiv preprint arXiv:1703.09452, 2017.

[4] S. R. Park and J. Lee, A fully convolutional neural network for speech enhancement, arXiv preprint arXiv:1609.07132, 2016.

[5] Y. Ephraim and D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.

[6] L. Griffiths and C. Jim, An alternative approach to linearly constrained adaptive beamforming, IEEE Transactions on antennas and propagation, vol. 30, no. 1, pp. 27 34, 1982.

[7] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, Investigating RNN-based speech enhancement methods for noiserobust text-to-speech. in SSW, 2016, pp. 146 152.

[8] J.-M. Valin, A hybrid dsp/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.

[9] Y. Isik, J. L. Roux, Z. Chen, S. Watanabe, and J. R. Hershey, Single-channel multi-speaker separation using deep clustering, arXiv preprint arXiv:1607.02173, 2016.

[10] M. Kolbæk, D. Yu, Z.-H. Tan, and J. Jensen, Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks, IEEE/ACM Transactions on Audio,  Speech, and Language Processing, vol. 25, no. 10, pp. 1901 1913, 2017.

[11] Y. Luo and N. Mesgarani, Tasnet: time-domain audio separation network for real-time, single-channel speech separation, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 696 700.

[12] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.

[13] Y. Luo, Z. Chen, and T. Yoshioka, Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation, arXiv preprint arXiv:1910.06379, 2019.

[14] C. K. A. Reddy, E. Beyrami, H. Dubey, V. Gopal, R. Cheng, R. Cutler, S. Matusevych, R. Aichner, A. Aazami, S. Braun, P. Rana, S. Srinivasan, and J. Gehrke, The interspeech 2020 deep noise suppression challenge: Datasets, subjective speech quality and testing framework, 2020.

[15] Y. Xia, S. Braun, C. K. A. Reddy, H. Dubey, R. Cutler, and I. Tashev, Weighted speech distortion losses for neural-networkbased real-time speech enhancement, in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 871 875.

[16] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 24, no. 3, pp. 483 492, 2015.

[17] Z.-Q.Wang, J. L. Roux, D.Wang, and J. R. Hershey, End-to-end speech separation with unfolded iterative phase reconstruction, arXiv preprint arXiv:1804.10204, 2018.

[18] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no. 8, pp. 1256 1266, 2019.

[19] M. Maciejewski, G. Wichern, E. McQuinn, and J. Le Roux, Whamr!: Noisy and reverberant single-channel speech separation, in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 696 700.

[20] I. Kavalerov, S. Wisdom, H. Erdogan, B. Patton, K. Wilson, J. Le Roux, and J. R. Hershey, Universal sound separation, in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019, pp. 175 179.

[21] J. L. Ba, J. R. Kiros, and G. E. Hinton, Layer normalization, arXiv preprint arXiv:1607.06450, 2016.

[22] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal timefrequency magnitude masking for speech separation, arXiv preprint arXiv:1809.07454, 2018.

[23] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 5206 5210.

[24] J. F. Gemmeke, D. P. Ellis, D. Freedman, A. Jansen,W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter, Audio set: An ontology and human-labeled dataset for audio events, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 776 780.

[25] J. Thiemann, N. Ito, and E. Vincent, The diverse environments multi-channel acoustic noise database: A database of multichannel environmental noise recordings, The Journal of the Acoustical  Society of America, vol. 133, no. 5, pp. 3591 3591, 2013.

[26] G. Pirker, M. Wohlmayr, S. Petrik, and F. Pernkopf, A pitch tracking corpus with evaluation on multipitch tracking scenario, in Twelfth Annual Conference of the International Speech Communication Association, 2011.

[27] Itu-t p. 808: Subjective evaluation of speech quality with a crowdsourcing approach, 2018.

[28] J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, Deep clustering: Discriminative embeddings for segmentation and separation, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Mar. 2016, pp. 31 35. [Online]. Available: https://www.merl.com/publications/  TR2016-003

[29] R. Scheibler, E. Bezzam, and I. Dokmani c, Pyroomacoustics: A python package for audio room simulation and array processing algorithms, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 351 355.

[30] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555, 2014. [31] Itu-t p. 862: Perceptual evaluation of speech quality (pesq): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. 2001.

[32] J. Le Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, Sdr half-baked or well done? in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626 630.

[33] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A shorttime objective intelligibility measure for time-frequency weighted noisy speech, in 2010 IEEE international conference on acoustics, speech and signal processing. IEEE, 2010, pp. 4214 4217. 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM