論文翻譯:2020_NSNet:Weighted speech distortion losses for neural-network-based real-time speech enhancement


論文地址:基於神經網絡的實時語音增強的加權語音失真損失

論文代碼:https://github.com/GuillaumeVW/NSNet

引用:Xia Y, Braun S, Reddy C K A, et al. Weighted speech distortion losses for neural-network-based real-time speech enhancement[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 871-875.

摘要

  本文研究了訓練RNN(遞歸神經網絡)的幾個方面,影響客觀和主觀的增強語音質量的實時單通道語音增強。具體地說,我們重點研究了一種基於單幀輸入、單幀輸出的RNN,這是一種被大多數經典信號處理方法所采用的框架。我們提出了兩個新穎的均方誤差 損失函數,能夠分別控制語音失真和降噪的重要性。提出的損失函數通過PESQ和STOI進行評估,並與其他方法進行比較。此外,我們還研究了特征歸一化和不同batch序列長度對增強語音客觀質量的影響。最后,我們對所提出的方法和一種先進的實時RNN方法進行了主觀評價。

關鍵詞:實時語音增強,遞歸神經網絡,損失函數,語音失真,平均意見評分

1  引言

  語音增強(Speech Enhance,SE)算法旨在改善被加性噪聲降級的語音質量和可理解性[1],以改善人類或機器對語音的理解,典型的語音增強應用包括助聽器、自動語音識別和噪聲環境中的音視頻通信。大多數SE方法將頻譜抑制增益或過濾應用於時頻域中的有噪語音信號[2]。在最近使用深度神經網絡(DNNs)的有監督學習方法中,DNN通常被設置為 從帶噪語音的一組或多組特征中估計這個時變增益函數[3]。

  在線處理能力是SE算法的一個吸引人的特征,並且對於實時通信應用是必需的。雖然大多數經典的SE方法必須適應它們的方法[4,5,6,7]來實現因果關系,但文獻[3,8,9]中的許多基於DNN的方法並沒有強制執行這一約束。幾種基於DNN的方法使用大量的look-ahead[8,9]報告了高質量的增強,但是它們在降低look-ahead的性能沒有得到很好的研究。然而,與經典方法相比,基於DNN的系統具有精確抑制瞬態噪聲的能力。在這項工作中,我們研究了基於遞歸神經網絡(RNN)的實時語音增強。最近涉及RNNs的工作顯示出令人振奮的結果[10],即使在非常低信噪比(SNR)的情況下也是如此[11,12]。

  設計用於音頻/視頻通信的SE算法的關鍵挑戰是在抑制噪聲的同時最大限度地保持感知(主觀)語音質量。在經典文獻中,優化這樣一個全局目標可以通過求解一個受約束的目標函數來完成[13]。或者,可以優化更簡單的目標,如(對數)均方誤差(MSE)[6,14],並采用后處理模塊,如殘余噪聲去除[7]和增益限制[15]。相比之下,深度學習框架的一個主要好處是相對容易納入復雜的學習目標,人們認為這將推動增強的語音朝着更好的質量和清晰度發展。沿着這條思路的方法包括從特征中學習多個目標[16,17,18],聯合優化最終目標及其子目標(例如,語音存在概率)[10,12],以及直接針對語音質量或清晰度的客觀度量進行優化[19,20]。后者似乎是一種改進客觀質量的有前途的方法,盡管由於每個客觀測量的頻帶限制,這兩個模型都必須結合標准的MSE。[21]據報道,簡單的感知加權寬帶MSE本身並不能改善客觀語音質量或清晰度,這表明MSE仍然是寬帶語音增強的可靠學習目標。

  本文提出了一種基於DNN的實時在線語音增強系統。首先,我們將討論使用RNN促進模型學習的 特征和歸一化技術。然后,我們描述了一種從單個噪聲幀產生增益的 緊湊形RNN。接下來,我們介紹了兩個簡單的基於均方誤差的損失函數,分別控制語音失真和去噪。在評估過程中,我們深入考察了錯誤加權對主客觀語音質量和清晰度的影響。此外,我們還討論了不同的特征歸一化技術和訓練策略對客觀度量的影響。

2  問題表述

  我們假設要在短時傅立葉變換(STFT)域中描述的麥克風信號為:

$$公式1:X[t,k]=S[t,k]+N[t,k]$$

其中$X[t,k]$、$S[t,k]$和$N[t,k]$分別表示在時間幀$t$和頻段bin$k$處的帶噪語音、純凈語音和噪聲。我們的系統在短時傅立葉變換幅度域(STFTM)$G[t,k]$中尋找一個時變增益函數,它可以最大限度地恢復$|S[t,k]|$。

$$公式2:|\hat{S}[t,k]|=G[t,k]|X[t,k]|$$

在實時處理中,$G[t,k]$僅取決於輸入的過去和現在信息,並由下式給出

$$公式3:G[t, k]=n(g(f(|X[l, k]|)) ; \Theta), l \leq t$$

其中,$f$是應用於noisy信號的STFTM上的變換函數,$g$是歸一化函數,以及$n$是其自適應參數以及由$\Theta $表示的DNN。最后,將$X[t,k]$noisy相位應用於$|\hat{S}[t,k]|$以獲得增強的信號。

  在接下來的幾節中,我們將回顧最先進的方法,然后討論我們對$f$和$g$的選擇,$n$的架構,$\Theta $的兩個學習目標,以及我們認為會影響增強語音質量的培訓方面的進一步考慮。

3  最先進的在線降噪技術

  經典的在線SE方法通常通過優化一些統計意義上的目標函數來尋找最優增益函數,這類方法中最有效的方法之一是假設語音和噪聲的STFT是不相關的復高斯分布,並通過最小化clean和增強的STFTM[6]或log-STFTM[14]之間的均方誤差來求解$G[t, k]$。雖然可以結合更先進的噪聲和語音存在概率模型來提高語音質量和防止音樂噪聲[4,5],但在去除高度非平穩噪聲的同時保持語音質量仍然是一項艱巨的任務。

  在最近的基於DNN的方法中,通常放棄了關於noisy和clean的STFTM分布的統計假設,而最小均方誤差(MMSE)目標變成了DNN通過隨機梯度下降來優化的損失函數。最流行的損失函數之一是介於chean和增強STFTM之間的MSE

$$公式4:L(\vec{G} ; \vec{S}, \vec{X})=\operatorname{mean}\left(\|\vec{S}-\vec{G} \odot \vec{X}\|_{2}^{2}\right)$$

  其中$\vec{A}$表示向量形式的$|A[t,k]|$,$\odot $是元素形式的乘積。最近提出的一種方法[10,RNNoise]使用RNN估計平滑能量輪廓的最佳增益函數,並通過基音濾波內插頻譜細節。實驗[10,22]報告了該RNNoise系統產生的增強語音具有很強的客觀和主觀語音質量。

4  提出的方法

4.1  特征表示

  選擇合適的特征和歸一化是成功訓練DNN的關鍵。我們考慮了幅度譜和對數功率譜(LPS)的兩個基本特征,並分別應用全局、頻率依賴(Frequency Dependent,FD)和頻率獨立(Frequency Independent,FI)歸一化來訓練我們的網絡

  在我們所有的系統中使用的STFT是基於32 ms的漢明窗口(幀之間有75%的重疊)和512點離散傅里葉變換計算的。LPS采用自然對數,地板在-120 dB,即:

$$公式5:f_{L P S}(|X[t, k]|)=\log \left(\max \left(|X[t, k]|^{2}, 10^{-12}\right)\right)$$

  我們探索了三種類型的歸一化,分別與上述幅度譜或LPS單獨結合。

1、首先,我們考慮全局歸一化,在這種情況下,每個頻率bin通過均值和從訓練集累積的標准差進行標准化

$$公式6:g_{G}(f(|X[t, k]|))=\left[f(|X[t, k]|)-\mu_{f(x)}[k]\right] / \sigma_{f(x)}[k]$$

2、其次,我們考慮在線(online) FD均值和方差標准化,在這種情況下,運行均值和方差被一個衰減指數平滑

$$公式7:\mu_{f(x)}[t, k]=c \mu_{f(x)}[t-1, k]+(1-c) f(|X[t, k]|)$$

$$公式8:\sigma_{f(x)}^{2}[t, k]=c \sigma_{f(x)}^{2}[t-1, k]+(1-c) f(|X[t, k]|)^{2}$$

$$公式9:g_{F D}(f(|X[t, k]|))=\frac{f(|X[t, k]|)-\mu_{f(x)}[t, k]}{\sqrt{\sigma_{f(x)}^{2}[t, k]-\mu_{f(x)}^{2}[t, k]}}$$

其中$c=exp(-\triangle t/\tau )$,$\triangle t$是以秒為單位的幀移位(在我們的設置中是8毫秒),$\tau $是一個時間常數,用來控制適應速度。其思想是,歸一化的頻譜將促進神經網絡的長期循環學習模式。

3、最后,我們還進行了FI在線歸一化,在這種情況下,平均每個頻率的均值和方差並應用於所有頻率。該方法保持了頻率bin之間的相對動態,但可能會給學習機帶來更大的學習挑戰。

  在我們所有的實驗中,除了特征實驗,我們使用FD在線歸一化,$\tau = 3s$。

4.2  學習機制

  我們的學習機器以門控循環單元(GRU)[23]為基礎,接收一幀帶噪語音譜,輸出一幀幅度增益函數。考慮到GRU的計算效率和實時SE任務的優越性能,它比長短期內存(LSTM)[24]更受青睞。我們將三個GRU層堆疊起來,然后是一個具有sigmoid激活的全連接(FC)輸出層,以預測增益函數$G[t, k]$。

  值得一提的是,我們沒有像在其他相關工作中經常做的那樣應用卷積層[11,25],因為在選擇頻率步幅和濾波器數量時涉及到相對任意的過程。先前的研究[26]已經表明一個naive卷積層應用於過去和現在的輸入噪聲幀並沒有改善增強語音的客觀質量。相反,我們通過訓練不同長度、特征和損失函數的序列來探索網絡的時間建模能力。

4.3  損失函數

  我們使用三個損失函數來訓練我們的系統。首先,我們使用公式(4)中純凈幅度譜和增強幅度譜之間的MSE。為了更好地控制損失,我們建議將error分為語音失真和降噪項

$$公式10:L_{\text {speech }}=\operatorname{mean}\left(\left\|\vec{S}_{\mathrm{SA}}-(\vec{G} \odot \vec{S})_{\mathrm{SA}}\right\|_{2}^{2}\right)$$

$$公式11:L_{\text {noise }}=\operatorname{mean}\left(\|\vec{G} \odot \vec{N}\|_{2}^{2}\right)$$

其中下標表示語音處於活動狀態的框架子集。在我們的實驗中,我們采用了一個簡單的基於能量的幀級語音活動檢測器,它對純凈語音的功率譜進行操作。短時語音能量在300hz和5000 Hz之間積累,並通過移動平均濾波器平滑3幀。最后,決定在低於整個語音峰值能量30分貝的閾值上發聲一幀。

  當估計增益接近all-pass時,語音失真誤差最小,噪聲誤差最大,反之亦然。因此,我們可以用一個固定的加權損失來控制語音失真對降噪的相對重要性

$$公式12:L\left(\vec{G} ; \vec{S}_{\mathrm{SA}}, \vec{N}\right)=\alpha L_{\text {speech }}+(1-\alpha) L_{\text {noise }}$$

式中$\alpha$為[0,1]范圍內的常數。我們注意到一個類似的損失是獨立發展的,被稱為雙組分損失(2CL)[27]。接下來,我們討論了這個固定權重的擴展。

  在經典的語音增強文獻中,抑制規則通常是根據信噪比來調整的[15,13]。具體來說,抑制應限制在高信噪比,以避免偽影,並在低信噪比是積極。基於這一原則,我們的第二個信噪比加權損失在公式(12)中使用每個語音的全局信噪比進行調整

$$公式13:\alpha=\frac{SNR}{SNR+\beta }$$

其中,$SNR=\frac{||\vec{S}||_2^2}{||\vec{N}||_2^2}$和$\beta$為常數。請注意,當$SNR=\beta$時,$d\alpha/d[10log+{10}(SNR)]$最大化。$\beta$控制全局 SNR,在該位置固定量的偏差會導致語音失真加權的最大漂移。 此外,還表示全局 SNR,其中兩個損失項的權重相等。 我們在圖 1 中說明了這一點。

圖1  選擇信噪比加權的語音失真加權。水平線表示$L_{speech}$和$L_{noise}$的權重相等

  所提出的方法如圖2所示的流程圖所示。在訓練過程中,計算加權損失既需要純凈語音,也需要noisy。訓練后的模型每次處理一幀帶噪語音幅度譜,利用帶噪語音的相位重構增強后的語音波形。

圖2  提出的系統流程圖

5  實驗結果與討論

5.1  語料庫與實驗設置

  我們使用MS-SNSD數據集[22]和工具包使用從公開可用的語音和噪聲語料庫合成的數據集來訓練和評估所有基於DNN的系統。14種不同的噪聲類型被選擇用於訓練,而來自9種不包括在訓練集中的噪聲類型的樣本被用於評估。我們的測試集包括挑戰性和高度非平穩的噪音類型,如咀嚼、多人交談、鍵盤打字等。所有音頻片段都被重新采樣到16 kHz。訓練集包括84小時的純凈語音和噪聲,而18小時(5500個片段)的有噪語音構成評估集。所有語音片段在每個話語的基礎上被電平歸一化,而每個噪聲片段被縮放以具有來自{40、30、20、10、0}dB的五個全局SNR中的一個。在下面描述的所有基於DNN的系統的訓練過程中,我們分別隨機選擇純凈語音和噪聲的語音,然后將它們混合來創建帶噪語音。

  我們基於幾個客觀的語音質量和清晰度指標和主觀測試,對所提出的方法進行了三個基線的比較研究。具體地說,我們包括語音質量感知評估(PESQ)[28]、短時客觀清晰度(STOI)[29]、倒譜距離(CD)和尺度不變信噪比(SI-SDR)[30],用於在時間域、頻譜域和倒譜域對增強語音進行客觀評估。我們使用[22]中提出的基於網絡的主觀框架進行了主觀聽力測試。每個語音都由20位眾包聽眾以1(非常差的語音質量)到5(極好的語音質量)之間的離散評級進行評級。在向這些聽眾展示測試剪輯之前,要確保培訓和資格認證。所有20個打分的平均值是該語音的平均意見分數(MOS)。我們還刪除了在整個MOS測試中選擇相同評級的明顯垃圾郵件發送者。我們的主觀測試與其他客觀評估相輔相成,從而為評估所研究的降噪算法提供了一個平衡的基准。

  我們將我們提出的方法與三種基線方法進行了比較。我們使用了經典的增強器,它是對[31]中描述的MMSE對數譜振幅(LSA)估計器[14]的略微優化的實現。基於DNN的基線包括改進的RNNoise(RNNoiseI)[22]和RNN(RNNoise257),該RNN復制RNNoise[10]的網絡體系結構,但是在257點頻譜上操作,在(4)上進行訓練,並且不具有最初提出的后處理組件。RNNoise257實現了一個具有與所提出的方法相當數量的參數的系統。

  在下一節中,我們討論了不同序列長度上的特征歸一化和訓練對增強語音的客觀質量的影響。然后,我們探討了所提出的固定加權損失函數和信噪比加權損失函數的最優加權。最后,我們將我們的系統生成的增強語音的主客觀質量與幾種方法進行了比較。

5.2  結果和討論

  我們想要評估用長序列或短序列訓練如何影響RNN中的時間建模。雖然長序列有望幫助處理長期噪聲模式,但它也可能潛在地降低只是短期靜止的語音。表1總結了序列長度對客觀語音質量的影響。對於每個設置,我們調整小批量中的序列數量,以便一批始終包含一分鍾的嘈雜語音。我們觀察到,隨着每個數據段增加到5秒,性能有了顯著的改善,超過5秒后,性能改善開始減弱。由於篇幅限制,我們沒有給出特征測試的結果,但總的來說,幅度譜和LPS特征的所有歸一化變體之間幾乎沒有區別,而沒有歸一化會導致退化。一般來說,我們推薦FD在線歸一化,因為它對不同的信號電平具有不變性。我們還建議在訓練期間使用每個不少於5秒的片段

表1  一分鍾小批量中序列長度的影響

  語音失真加權的效果如圖3所示,其中改變$\alpha$或$\beta $以搜索每個客觀測量的最佳點。奇怪的是,在這兩種情況下,只有STOI和CD在相同的系數上達成一致,而PESQ和SI-SDR都表明語音失真的權重較小。所有指標的最佳信噪比權重都集中在20dB左右,這意味着只有在噪聲信號相對純凈的情況下,語音失真權重才應該迅速增加。總體而言,在所有指標中,固定權重都略好於SNR權重

圖3  固定加權和信噪比加權對客觀語音質量和清晰度測量的影響。

黑色虛線垂直線表示每個度量的最佳系數。

注意,STOI和CD的最佳點在$\alpha = 0.65$和$\beta =18.2 $dB處重合。

  在實驗中,我們注意到,即使我們的系統在MSE(例如,表1中的第4行)上訓練的系統可以達到與那些基於擬議的加權損失(12)訓練的系統類似的客觀度量,但基於加權損失訓練的系統的相應主觀質量要好得多。基於我們的損失函數訓練的系統,特別是在小的情況下,最顯著的改進是估計的增益函數比基於MSE訓練的系統具有更強的頻率選擇性,有更高的噪聲抑制,特別是在高信噪比的情況下。為了證明這一點,我們在表2中給出了主觀聽力測試的結果。我們選擇的所有系統不僅顯著優於[22]中提出的基於MSE的改進的RNNoise(RNNoiseI),而且令我們驚訝的是,聽力測試對象更喜歡相當低的語音失真權重設置。所有客觀指標以及作者的主觀偏好約$\alpha$=0.35都錯誤地預測了這一趨勢。當低於0.35時,我們觀察到明顯的語音失真,而噪聲變得更受抑制。顯然,在未來的工作中需要進行更詳細的調查,以更好地揭示不同聽眾群體的語音失真和降噪偏好。

表2  主觀MOS從5500個剪輯和20個評級的剪輯

  最后,我們報告了從每個基線方法、帶噪參考和甲維納濾波作為上界的客觀評估,如表3所示。從我們的方法中選擇的系統使用固定的語音失真加權(α=0.35時)進行訓練,我們認為該方法在語音失真和去噪之間取得了很好的平衡。雖然這種設置可能不是人類監聽器最喜歡的,但是可以很容易地調優到不同的應用程序。盡管如此,重要的是要證明它在所有客觀度量上都優於所有測試的經典或基於DNN的方法。

表3  比較客觀的度量與基線在線SE系統。有關每個設置的詳細信息,請參閱文本

6  總結

  本文提出並評估了一種基於緊湊遞歸神經網絡的實時語音增強方法,該網絡采用一種簡單的基於MSE的語音失真加權損失函數進行訓練,並展示了各種特征歸一化技術和序列長度對增強語音客觀質量的影響。我們還演示了如何利用損失函數中的固定加權系數和信噪比加權系數來控制語音失真量,客觀和主觀測試都表明,我們的方法比其他好勝在線方法具有更好的性能。在未來,我們將探索時變的語音失真權重及其對主客觀語音質量的影響。

7  參考文獻

[1] P. C. Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[2] J. Benesty, S. Makino, and J. Chen, Eds., Speech Enhancement, Springer, 2005.

[3] Y.Wang, A. Narayanan, and D.Wang, On training targets for supervised speech separation, IEEE/ACM Trans. on audio, speech, and language processing, vol. 22, no. 12, pp. 1849 1858, 2014.

[4] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE signal processing letters, vol. 9, no. 1, pp. 12 15, 2002.

[5] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal processing, vol. 81, no. 11, pp. 2403 2418, 2001.

[6] Y. Ephraim and D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Trans. on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.

[7] S. Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. on acoustics, speech, and signal processing, vol. 27, no. 2, pp. 113 120, 1979.

[8] A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation, ACM Trans. on Graphics (TOG), vol. 37, no. 4, pp. 112, 2018.

[9] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, in ISCA INTERSPEECH 2017, 2017, pp. 3642 3646.

[10] J.-M. Valin, A hybrid DSP/deep learning approach to realtime full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP), 2018, pp. 1 5.

[11] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement., in ISCA INTERSPEECH, 2018, pp. 3229 3233.

[12] Y. Xia and R. Stern, A priori SNR estimation based on a recurrent neural network for robust speech enhancement, in ISCA INTERSPEECH, 2018, pp. 3274 3278.

[13] S. Braun, K. Kowalczyk, and E. Habets, Residual noise control using a parametric multichannel wiener filter, in IEEE ICASSP, 2015, pp. 1 5.

[14] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. on acoustics, speech, and signal processing, vol. 33, no. 2, pp. 443 445, 1985.

[15] T. Esch and P. Vary, Efficient musical noise suppression for speech enhancement system, in IEEE ICASSP, 2009, pp. 1 5.

[16] L. Sun, J. Du, L.-R. Dai, and C.-H. Lee, Multiple-target deep learning for LSTM-RNN based speech enhancement, in IEEE Hands-free Speech Communications and Microphone Arrays (HSCMA), 2017, pp. 136 140.

[17] Y. Xu, J. Du, Z. Huang, L.-R. Dai, and C.-H. Lee, Multiobjective learning and mask-based post-processing for deep neural network based speech enhancement, in ISCA INTERSPEECH 2015, pp. 1508 1512.

[18] F. G. Germain, Q. Chen, and V. Koltun, Speech Denoising with Deep Feature Losses, in Proc. Interspeech 2019, 2019, pp. 2723 2727.

[19] J. M. Mart ın-Do nas, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, A deep learning loss function based on the perceptual evaluation of the speech quality, IEEE Signal processing letters, vol. 25, no. 11, pp. 1680 1684, 2018.

[20] Y. Zhao, B. Xu, R. Giri, and T. Zhang, Perceptually guided speech enhancement using deep neural networks, in IEEE ICASSP, 2018, pp. 5074 5078.

[21] A. Kumar and D. Florencio, Speech enhancement in multiplenoise conditions using deep neural networks, in ISCA INTERSPEECH 2016, 2016, pp. 3738 3742.

[22] C. K. Reddy, E. Beyrami, J. Pool, R. Cutler, S. Srinivasan, and J. Gehrke, A Scalable Noisy Speech Dataset and Online Subjective Test Framework, in ISCA INTERSPEECH 2019, 2019, pp. 1816 1820.

[23] K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, Learning phrase representations using RNN encoder decoder for statistical machine translation, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1724 1734.

[24] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.

[25] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, Convolutionalrecurrent neural networks for speech enhancement, in IEEE ICASSP, 2018, pp. 2401 2405.

[26] D. Liu, P. Smaragdis, and M. Kim, Experiments on deep learning for speech denoising, in ISCA INTERSPEECH, 2014.

[27] Z. Xu, S. Elshamy, Z. Zhao, and T. Fingscheidt, Components loss for neural networks in mask-based speech enhancement, arXiv preprint arXiv:1908.05087, 2019.

[28] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs, in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 01CH37221), 2001, vol. 2, pp. 749 752.

[29] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A short-time objective intelligibility measure for time-frequency weighted noisy speech, in IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 4214 4217.

[30] J. Le Roux, S.Wisdom, H. Erdogan, and J. R. Hershey, SDR half-baked or well done?, in IEEE ICASSP, 2019, pp. 626 630.

[31] I. J. Tashev, Sound capture and processing: practical approaches, John Wiley & Sons, 2009.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM