論文地址:使用半監督堆棧式自動編碼器實現包含記憶的人工帶寬擴展
作者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans
博客作者:凌逆戰
博客地址:https://www.cnblogs.com/LXP-Never/p/10889975.html
摘要
為了提高寬帶設備從窄帶設備或基礎設施接收語音信號的質量,開發了人工帶寬擴展(ABE)算法。以動態特征或從鄰近幀捕獲的explicit memory(顯式內存)的形式利用上下文信息,在ABE研究中很常見,但是使用額外的信息會增加復雜性,並會增加延遲。以前的工作表明,無監督的線性降維技術有助於降低復雜性。本文提出了一種利用Stacked Auto-Encoder(堆疊自動編碼器)進行降維的半監督非線性方法。與以前的工作進一步對比,它對原始頻譜進行操作,從原始頻譜中以數據驅動的方式學習低維窄帶表示。三種不同的客觀語音質量指標表明,新特征可以與標准回歸模型相結合來提高ABE的性能。學習到的特征和缺失的高頻成分之間的相互信息也得到了改善,非正式的聽力測試證實了語音質量得到了改善。
1、引言
雖然傳統的窄帶(NB)電話基礎設施的帶寬被限制在0.3-3.4kHz,但今天的寬帶(WB)技術支持使用從50Hz-7kHz擴展的帶寬來提高語音質量。為了提高寬帶設備與NB設備或基礎設施一起使用時的語音質量,研究了人工帶寬擴展(ABE)算法。利用兩個[1]之間的相關性,ABE利用現有NB分量估計3.4kHz以上缺失的高頻分量,通常采用從WB訓練數據中學習的回歸模型。
基於源濾波器模型的ABE方法估計了分離的頻譜包絡和激勵分量[2,3]。其他ABE方法直接作用於推導出復雜的短期頻譜估計,例如使用傅里葉變換(STFT)[4,5]或constant-Q變換[6]。與短期譜估計相補充的是某種形式的contextual information(上下文信息)或menory(記憶),可以用來提高HB分量估計的可靠性。一些特定的后端回歸模型,如隱馬爾可夫模型(HMMs)[7,8]和深度神經網絡(DNNs)[9 11],以時間信息的形式捕捉memory。一些DNN解決方案,例如[4,12,13],在前端捕獲memory,例如,通過增量特性或來自相鄰幀的靜態特性。在研究了ABE[14]的前端特征提取之后,[15 17]的工作通過信息論分析研究了memory包含的優點。本研究在固定維數的約束下,通過增量特征證明了memory包含的好處。然而,為了適應動態增量特性,memory的包含需要丟失高階靜態HB特性。我們自己的工作[18]定量地分析了固定ABE解決方案中顯式內存包含的好處。該工作還解決了延遲和復雜性問題。使用主成分分析(PCA)來管理復雜性,以便在不增加特征維數的情況下納入memory;回歸復雜度不受影響。PCA是一種無監督的線性降維方法,它的目標只是生成一個低維表示,盡可能保留輸入表示的變化。本文研究的假設是,監督或半監督和非線性降維技術為學習專門針對ABE的低維表示提供了可能,從而獲得更好的性能。
自動編碼器(AEs)是一種越來越受歡迎的非線性降維方法,已被廣泛應用於許多語音處理任務,如音素/語音識別[19 21]和語音合成[22]。這些例子中常見的是使用AEs學習所謂的瓶頸特性,即針對模式識別和分類定制的緊湊特性表示。本論文研究了用堆疊(deep)AEs來降低ABE的非線性維數,特別是用經過半監督訓練的堆疊(deep)自動編碼器。我們的目標是
(i)在緊湊、低維的表示中利用memory,以提高估計的HB部分的可靠性;
(ii)直接從原始頻譜系數而不是手工制作的特征中學習NB特征。通過客觀評價、信息論方法和非正式的聽力測試來評估這兩篇文章的價值。
本文的其余部分組織如下。第2節描述了一個基線ABE算法。第3節展示了如何應用半監督堆疊AEs來提高其性能。第4節實驗工作,第5節結果,第6節結論。
2、基線ABE系統

圖1:包含memory的基線ABE系統框圖
圖1顯示了基線ABE系統。它與[18]中提出的基於源濾波器模型的方法是一致的。由於上面提供了完整的細節,所以這里只提供一個簡要的概述。該算法由訓練、估計和再合成三個部分組成。
訓練分別使用NB和WB幀frame-blocked(阻塞信號)$x_t$和$y_t$進行,其中t為時間指標。采用10 log-Mel濾波能量系數(logMFE)對NB分量進行參數化($X_t^{NB}$--訓練框架的頂層)。通過選擇線性預測(SLP)[23]對HB分量進行參數化,得到9個線性預測(LP)系數和一個增益參數($Y_t^{HB}$ -訓練框架的底端)。NB和HB特征經過均值和方差正態化($mvn_x$和$mvn_y$),得到$X_{t,mvn}^{NB}$和$Y_{t,mvn}^{HB}$。將t時刻的NB特征與從$\delta $相鄰幀中提取的特征串聯起來,得到
$$X_{t,conc\_\delta }=[X_{t-\delta ,mvn}^{NB},...,X_{t ,mvn}^{NB},...,X_{t+\delta ,mvn}^{NB}]^T$$
為了限制復雜性,采用PCA(主成分分析法)將$X_{t,conc\_\delta}$降為10維特征$X_{t,pca\_\delta}^NB$。主成分分析矩陣$W_{PCA}$是從訓練數據中學習而來,在估計步驟中保持不變。最后,使用串聯$Z=[X_{t,pca\_\delta}^{NB}, Y_{t,mvn}^{HB}]^T$從訓練數據中學習128分量全協方差高斯混合模型(GMM)。
對上采樣過的NB信號$\hat{x}$進行估計。按照訓練中相同的NB處理和memory inclusion進行處理得到10維特征$\hat{X}_{t,pca\_\delta}^{NB}$。然后將訓練中學習的GMM參數定義的傳統回歸模型[2]用於估計HB特征$\hat{Y}_{t,mvn}^{HB}$。利用訓練得到的均值和方差,采用逆均值和方差歸一化($mvn_y^{-1}$)估計HB LP系數$\hat{a}^{HB}$和增益$\hat{g}^{HB}$。
根據圖1中編號塊所示的三個不同步驟進行重新合成。首先(框1)由NB LP參數$\hat{g}^{NB}$、$\hat{a}^{NB}$和估計的HB參數$\hat{g}^{HB}$、$\hat{a}^{HB}$定義的$\hat{x}_t$的NB和HB功率譜估計缺失WB功率譜。然后利用逆快速傅里葉反變換(IFFT)和Levinson-Durbin遞歸,從WB功率譜中得到估計的WB參數$\hat{g}^{WB}$和$\hat{a}^{WB}。第二(框2)采用由$\hat{g}^{NB}$和$\hat{a}^{NB}$定義的LP分析濾波器得到NB激勵$\hat{u}_t^{NB}$。然后應用頻譜平移[3]和高通濾波器(HPF)得到HB激勵分量$\hat{u}_t^{HB}$,在適當的延遲D后加入$\hat{u}_t^{NB}$得到擴展的WB激勵$\hat{u}_t^{WB}$。最后(框3)使用$\hat{g}^{WB}$和$\hat{a}^{WB}$定義的合成濾波器對$\hat{u}_t^{WB}$進行濾波,以重新合成語音幀$\hat{t}_t$。重疊和相加(OLA)得到擴展的WB語音$\hat{y}$。
3、ABE使用半監督堆疊的自動編碼器
基線ABE算法采用無監督的線性降維方法,使得在訓練中學習並用於估計的標准回歸模型的復雜度由於memory inclusion而保持不變。本文的工作是利用一種半監督的、非線性的、使用堆疊式自動編碼器的降維技術來提高ABE的性能。
3.1 堆棧式自動編碼器
自動編碼器(AE)是一種廣泛用於學習高級數據表示的人工神經網絡。聲發射由編碼器和解碼器組成。編碼器f()根據:
$$公式1:y=f_{\theta}(x)=s(Wx+b)$$
其中o = fW;bg為權矩陣W和偏置向量b的參數集,函數s為非線性變換。編碼器后面是解碼器g 0(),其目的是根據所學習的表示y重構原始輸入:
$$z=g_{{\theta}'}(y)={s}'({W}'y+{b}')$$
其中0 = fW0;根據輸入x的性質,b0g和s0可以是線性變換,也可以是非線性變換。利用均方誤差(MSE)目標損失函數對0g進行優化,該函數反映了輸入和重建輸出之間的差異。
更深層次的網絡天生具有更強的能力來學習高度非線性和復雜的函數[24]。通過疊加多層編碼器和解碼器,可以增加聲發射的深度,從而形成疊加式自動編碼器(SAE)。然而,隨着網絡的增長,網絡要找到全局最小[25]變得越來越困難。
為了緩解這些問題,通常采用某種形式的預訓練來初始化網絡權值。流行的解決方案包括使用受限玻爾茲曼機(RBMs)[25]進行預培訓,以及對AEs[26]進行降噪。層在訓練前堆積,然后進行微調。其他工作研究了網絡初始化的替代方法,如[27,28]。
3.2 應用ABE
通過基於重構的目標損失函數,SAEs可以學習輸入和重構輸出之間的簡單映射,而不是有意義的高級表示[26]。此外,由於沒有監督,從傳統SAE的瓶頸層提取的特征沒有明確設計用於分類或回歸;在這方面,它們可能不是最優的。在[24]中,部分監督的AEs預訓練被證明是有益的,特別是對回歸任務。
在此基礎上,我們探索了SAEs的半監督訓練,以便學習專門為回歸建模和ABE設計的緊湊表示。得到的具有兩個輸出層的半監督SAE (SSAE)體系結構如圖2所示。一個輸出層學習用傳統的SAE重構輸入(AE輸出),另一個輸出層學習估計缺失的HB特征(回歸輸出)。這是通過給出的聯合目標損失函數來實現的

其中Lreg和Lae分別為回歸和AE輸出的目標損失函數,其中c2 [0];1]加權個人損失的貢獻。

SSAE體系結構還可以用於直接從回歸層估計HB組件。在[29]中報道了一個類似的基於CNN的體系結構,該結構設計用於規范化短i-向量到長i-向量的映射,用於演講者的二值化任務。這里的重點是不同的,即。,規范/監督降維,以保存對ABE至關重要的信息。這些信息被一個標准的回歸模型所利用。為了研究基於ssa的降維方法的優點,將圖1(紅色框)中的權值矩陣WPCA替換為SSAE編碼器(圖2中的紅色框),然后對提取的低維特征進行均值和方差歸一化。GMM的訓練和估計按照第2節中描述的相同方式執行。本文還報道了這種方法的一個變體,即低維NB表示直接從NB對數功率譜(LPS)系數而不是logMFE特征得到。這是通過用LPS系數替換logMFE特性來實現的。
4、實驗
實驗旨在比較使用PCA降維MPCA 2的基線ABE系統與使用SSAE降維MAE 2的基線ABE系統的性能。系統mpca2和MAE 2分別使用^X NB t;pca 2和^X NB t;ae 2;mvn特性。本節描述用於ABE實驗的數據庫、SSAE配置細節和度量。
4.1 數據集
TIMIT數據集[30]用於培訓和驗證。將訓練集中的3696個話語和測試集中的1152個話語(不含核心測試子集)按照[6]中描述的步驟處理並行的WB和NB語音信號,訓練ABE解。TIMIT核心測試子集(192條語句)用於驗證和優化網絡參數。受[31]中提出的分析方法的啟發,使用由1378個語音組成的聲學不同TSP數據庫[32]進行測試。將TSP數據降采樣至16kHz,並進行類似的預處理,得到並行的WB和NB數據。
4.2 SSAE訓練和配置
SSAE是使用Keras工具包[33]實現的。與之前的工作[18]一致,特性Xt;將t時刻的conc2(由前兩幀和后兩幀拼接而成)輸入SSAE。AE輸出與輸入相同,回歸輸出設為HB feature Y HB t;mvn。為了提高收斂速度到全局最小值,根據[28]中描述的方法對SSAE進行初始化。優化是根據[34]中描述的程序進行的,標准學習率為0.001,動量為0.9,MSE標准。
我們研究了兩種6層對稱SSAE結構,它們在隱層中具有不同的單元數:1)512、256、10、256、512 (Arch-1);2) 1024、512、10、512、1024 (Arch-2)。輸出層由50個(AE)和10個(回歸)單元組成。隱層具有tanh或ReLU激活單元,而輸出層具有線性激活單元。研究了輟學(dr)[35]和批量標准化[36]技術,以防止過度擬合。當驗證損失在連續兩個時點之間增加時,學習率降低了一半。回歸和AE損失權重均設為c=0.5。網絡被訓練了30個時代。
4.3 度量
業績報告是根據客觀評價。目標光譜失真測量包括:均方根對數光譜失真(RMS-LSD);所謂的COSH測度(對稱版的Ikatura-Saito失真)[37]計算的頻率范圍為3.4-8kHz,並將WB擴展到感知分析的語音質量算法[38]。后者給出了平均意見得分的客觀估計(mo - lqowb)。通過互信息(MI)[14]測量SSAE和PCA表示與HB特征的相關性。
5、結果
表1顯示了激活(bn-a)之后或激活(bn-b)之前執行的兩種不同體系結構和四種不同的dropout (dr)和批處理規范化組合的MSE的驗證性能。在所有隱藏層之前使用Dropout層。相對較低的MSE值是在沒有退出或批量標准化(配置A)的情況下實現的,盡管對於具有ReLU激活的Arch-2來說性能很差。在沒有批處理規范化(configuration D)的情況下使用dropout會導致網絡的非規范化,特別是對於ReLU激活。類似的觀察在[31]中也有報道。使用任何一種沒有退出的批處理正常化方法都可以得到較低的MSE值,最好的結果是使用bn-b配置(C)得到的。本文其余部分報告的所有結果都與此配置有關。
表1:不同SSAE配置的平均MSE,包括體系結構1和體系結構2,具有ReLU或tanh激活函數,具有或不具有dropout (dr)和batch normalisation (bn)(在(a)激活后或激活前)。dr值表示被設置為0的隨機隱藏單元的分數。使用驗證數據集對評估結果進行了說明。

從測試集以及基線MPCA 2和基於ssa的MAE 2到ABE方法中獲得的性能指標如表2所示。只有一個例外,光譜失真度量結果顯示SSAE值低於基線值。SSAE系統的莫斯- lqowb評分始終較高。激活tanh的Arch-2 SSAE系統性能最好。不幸的是,盡管客觀表現指標有令人信服的改進,非正式的聽力測試顯示基線和SSAE系統產生的語音信號質量之間幾乎沒有明顯的差異。
表2:目標性能度量結果。在dB中,RMS-LSD和dCOSH是平均光譜失真度量(低值表示更好的性能),而莫斯- lqowb值反映質量(高值表示更好的性能)。

表3顯示了使用LPS輸入(而不是logMFE特性)訓練的兩種性能最佳的SSAE配置Arch-1C和Arch-2C(都是tanh激活)的目標性能度量。失真測量值始終較低,而莫斯- lqowb評分始終高於所有其他基於ssa的系統的結果。與使用logMFE功能的SSAE系統的結果相反,非正式聽力測試顯示,與使用基線ABE系統生成的語音相比,語音質量有明顯改善。在logMFE和LPS輸入上運行的基線和SSAE系統產生的帶寬擴展語音的例子可以在網上找到。
表3:使用原始對數功率譜(LPS)輸入代替對數- mel濾波能量(logMFE)對SSAE進行客觀評價的結果。

最后一組結果旨在進一步驗證客觀和非正式聽力測試的結果。這是通過觀察改善之間的互信息(MI)和真正的學會了NB表示HB表示測量使用測試集。128 -組件fullcovariance GMM和聯合訓練向量由學會NB和真正的HB特性用於MI估計如[18]所述。表4所示的MI結果表明,使用LPS輸入訓練tanh激活的Arch-2C SSAE系統的MI相對於基線系統增加了23%。這一結果證實了上述發現,即對原始光譜輸入進行操作的半監督技術能夠學習更好的表示,從而提高ABE性能。
表4:互信息評估結果。我(X;表示特征X與特征Y之間的MI。

6、結論
提出了一種用於人工帶寬擴展的非線性半監督降維方法。進一步利用疊置自編碼器學習高階表示的能力,直接從原始光譜中學習緊湊窄帶特征。該方法的優點通過不同的客觀指標得到了證明,並通過非正式聽力測試的結果得到了證實。信息理論分析證實了新特征的有效性。在不增加復雜度的情況下,標准的回歸模型可以使用以數據處理方式從原始光譜中提取的特征。利用潛在的光譜模型轉換及其進一步優化來學習ABE的特性應該是我們未來的重點。進一步的工作還應該研究半監督的自動編碼器與非監督或部分監督的訓練前方法的結合。這些可能提供了更大的潛力,以提高人工帶寬擴展語音的質量。
7、參考文獻
[1] Y. Cheng, D. O’Shaughnessy, and P. Mermelstein, “Statistical recovery of wideband speech from narrowband speech,” IEEE Trans. on Speech and Audio Processing, vol. 2, no. 4, pp. 544–548, 1994.
[2] K.-Y. Park and H. Kim, “Narrowband to wideband conversion of speech using GMM based transformation,” in Proc. of IEEE
Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP),vol. 3, 2000, pp. 1843–1846.
[3] P. Jax and P. Vary, “On artificial bandwidth extension of telephone speech,” Signal Processing, vol. 83, no. 8, pp. 1707–1719, 2003.
[4] K. Li and C.-H. Lee, “A deep neural network approach to speech bandwidth expansion,” in Proc. of IEEE Int. Conf. on Acoustics,Speech and Signal Processing (ICASSP), 2015, pp. 4395–4399.
[5] R. Peharz, G. Kapeller, P. Mowlaee, and F. Pernkopf, “Modeling speech with sum-product networks: Application to bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 2014, pp. 3699–3703.
[6] P. Bachhav, M. Todisco, M. Mossi, C. Beaugeant, and N. Evans, “Artificial bandwidth extension using the constant Q transform,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5550–5554.
[7] C. Ya˘gli and E. Erzin, “Artificial bandwidth extension of spectral envelope with temporal clustering,” in Proc. of IEEE Int. Conf.on Acoustics, Speech, and Signal Processing (ICASSP), 2011, pp.5096–5099.
[8] I. Katsir, D. Malah, and I. Cohen, “Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation,” in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). VDE, 2012, pp. 1–4.
[9] Y. Wang, S. Zhao, D. Qu, and J. Kuang, “Using conditional restricted boltzmann machines for spectral envelope modeling in speech bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2016, pp.5930–5934.
[10] Y. Gu, Z.-H. Ling, and L.-R. Dai, “Speech bandwidth extension using bottleneck features and deep recurrent neural networks.” in Proc. of INTERSPEECH, 2016, pp. 297–301.
[11] Y. Wang, S. Zhao, J. Li, J. Kuang, and Q. Zhu, “Recurrent neural network for spectral mapping in speech bandwidth extension,” in Proc. of IEEE Global Conf. on Signal and Information Processing(GlobalSIP), 2016, pp. 242–246.
[12] B. Liu, J. Tao, Z. Wen, Y. Li, and D. Bukhari, “A novel method of artificial bandwidth extension using deep architecture,” in Sixteenth Annual Conf. of the Int. Speech Communication Association,2015.
[13] J. Abel, M. Strake, and T. Fingscheidt, “Artificial bandwidth extension using deep neural networks for spectral envelope estimation,” in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). IEEE, 2016, pp. 1–5.
[14] P. Jax and P. Vary, “Feature selection for improved bandwidth extension of speech signals,” in Proc. IEEE Int. Conf. on Acoustics,Speech, and Signal Processing (ICASSP), 2004, pp. I–697.
[15] A. Nour-Eldin, T. Shabestary, and P. Kabal, “The effect of memory inclusion on mutual information between speech frequency bands,” in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), vol. 3, 2006, pp. III–III.
[16] A. Nour-Eldin and P. Kabal, “Objective analysis of the effect of memory inclusion on bandwidth extension of narrowband speech,” in Proc. of INTERSPEECH, 2007, pp. 2489–2492.
[17] ——, “Mel-frequency cepstral coefficient-based bandwidth extension of narrowband speech,,” in Proc. of INTERSPEECH,2008, pp. 53–56.
[18] P. Bachhav, M. Todisco, and N. Evans, “Exploiting explicit memory inclusion for artificial bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2018, pp. 5459–5463.
[19] J. Gehring, Y. Miao, F. Metze, and A. Waibel, “Extracting deep bottleneck features using stacked auto-encoders,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2013, pp. 3377–3381.
[20] T. Sainath, B. Kingsbury, and B. Ramabhadran, “Auto-encoder bottleneck features using deep belief networks,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2012, pp. 4153–4156.
[21] D. Yu and M. Seltzer, “Improved bottleneck features using pretrained deep neural networks,” in Twelfth Annual Conf. of the Int.Speech Communication Association, 2011.
[22] S. Takaki and J. Yamagishi, “A deep auto-encoder based lowdimensional feature extraction from fft spectral envelopes for statistical parametric speech synthesis,” in Proc. of IEEE Int. Conf.on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp.5535–5539.
[23] J. Markel and A. Gray, Linear prediction of speech. Springer Science & Business Media, 2013, vol. 12.
[24] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle, “Greedy layer-wise training of deep networks,” in Advances in neural information processing systems, 2007, pp. 153–160.
[25] G. Hinton and R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” science, vol. 313, no. 5786, pp. 504–507, 2006.
[26] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P.-A. Manzagol,“Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion,”Journal of Machine Learning Research, vol. 11, no. Dec, pp.3371–3408, 2010.
[27] X. Glorot and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in Proc. of the Thirteenth Int.Conf. on Artificial Intelligence and Statistics, 2010, pp. 249–256.
[28] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,” in Proc. of the IEEE int. conf. on computer vision, 2015, pp. 1026–1034.
[29] J. Guo, U. A. Nookala, and A. Alwan, “CNN-based joint mapping of short and long utterance i-vectors for speaker verification using short utterances,” Proc. of INTERSPEECH, pp. 3712–3716, 2017.
[30] J. Garofolo, L. Lamel, W. Fisher, J. Fiscus, and D. Pallett,“DARPA TIMIT acoustic-phonetic continous speech corpus CDROM.NIST speech disc 1-1.1,” NASA STI/Recon technical report N, vol. 93, 1993.
[31] J. Abel and T. Fingscheidt, “Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation,” IEEE Trans. on Audio, Speech, and Language Processing,vol. 26, no. 1, pp. 71–83, 2018.
[32] P. Kabal, “TSP speech database,” McGill University, Database Version : 1.0, pp. 02–10, 2002.
[33] F. Chollet et al., “Keras,” https://github.com/keras-team/keras,2015.
[34] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[35] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” The Journal of Machine Learning Research,vol. 15, no. 1, pp. 1929–1958, 2014.
[36] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in Int. conf.on machine learning, 2015, pp. 448–456.
[37] R. Gray, A. Buzo, A. Gray, and Y. Matsuyama, “Distortion measures for speech processing,” IEEE Trans. on Acoustics, Speech,and Signal Processing, vol. 28, no. 4, pp. 367–376, 1980.
[38] “ITU-T Recommendation P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs,” ITU, 2005.
