論文題目:利用WAVENET擴展語音帶寬
作者:Archit Gupta, Brendan Shillingford, Yannis Assael, Thomas C. Walters
博客地址:https://www.cnblogs.com/LXP-Never/p/12090929.html
博客作者:凌逆戰
摘要
大規模的移動通信系統往往包含傳統的通信傳輸信道,存在窄帶瓶頸,從而產生具有電話質量的音頻。在高質量的解碼器存在的情況下,由於網絡的規模和異構性,用現代高質量的音頻解碼器來傳輸高采樣率的音頻在實踐中是很困難的。本文提出了一種在通信節點可以通過低速率編解碼器來擴展帶寬的方法。為此,我們提出了一個基於對數-梅爾譜圖的模型,該模型以8 kHz的帶寬受限語音信號和GSM-full-rate(FR)壓縮的偽信號為條件來重建高分辨率的信號。在我們的MUSHRA評估中,我們表明,經過訓練可以 從 通過8kHz GSMFR編解碼器的音頻 中 上采樣到24kHz語音信號的模型,能夠重構質量稍低於16kHz自適應多速率帶寬音頻編解碼器(AMRWB) 編解碼器的音頻,然后關閉 原始編碼信號和以24kHz采樣的原始語音之間的感知質量差距大約有一半。 我們進一步證明,當通過同一模型時,未經壓縮的8kHz音頻可以在相同的MUSHRA評估中再次重建質量比16kHz AMR-WB更好的音頻。
關鍵詞:WaveNet、帶寬擴展、超分辨率、生成模型
1、介紹及相關工作
傳統的傳輸信道仍然是許多大型通信系統的一部分。這些通道引入瓶頸,限制了帶寬和語音質量。通常這被稱為電話質量音頻。將基礎結構的所有部分升級為與更高質量的音頻編解碼器兼容可能很困難。因此,本文提出了一種不升級基礎設施的所有通信節點的方法,其中通信節點可以代替擴展任何傳入語音信號的帶寬。為了實現這一目標,我們提出了一個基於WaveNet的模型[1],一個音頻波形的深度生成模型。
WaveNet被證明在基於語言特征的高質量語音合成中是非常有效的。此外,WaveNet體系結構已被用於文本到語音的log-mel譜圖[2]和語音編碼的其他低維潛在表示[3,4]。考慮到wavenet體系結構從約束條件表示中生成高質量語音的能力,我們將此技術擴展到語音的帶寬擴展(BWE)[5]問題,也稱為音頻超分辨率[6]。
雖然BWE可以被理解為將帶限信號擴展到低頻和高頻區域,但在這種情況下,我們對電話應用特別感興趣,其中音頻通常通過低速率語音編解碼器,如GSM全速率(FR)[7],它將重建信號的最高頻率分量限制在4kHz以下,從而導致音頻質量降低和潛在的可懂度損害。因此,我們着重於從采樣率為8kHz的輸入信號重建采樣率為24kHz的信號。過去,帶寬擴展是在語音的聲碼器表示領域中進行的,使用的技術有高斯混合模型和隱馬爾可夫模型[5];最近,人們越來越關注使用神經網絡來建模頻譜包絡[8]或直接預測上采樣波形[6、9、10],比以前的方法更能提高質量。
在我們的實驗評估中,我們評估了我們提出的模型對窄帶信號執行帶寬擴展的能力。為了說明我們的工作所產生的影響,我們展示了一個經過訓練的模型,在8kHz時將通過GSM-FR編解碼器的語音信號提升到24kHz,能夠重建與16kHz時自適應多速率寬帶編解碼器(AMR-WB)[11]產生的音頻質量相似或更好的音頻。GSM-FR是傳統GSM移動電話中使用的編解碼器,而AMR-WB則是高清語音通話中常用的編解碼器。雖然很難與以前的工作進行比較,但由於缺乏可重復的代碼和不同的測試集划分,我們的方法在MUSHRA評估中獲得了比以前的工作更高的分數[6]。
值得一提的是,我們相信我們的WaveNet內核可能會被更高效的計算架構所取代,如並行WaveNet[12]、WaveGlow[13]或WaveRNN[14]。這些體系結構已經表明,在保持相似的建模性能的同時,通常可以重現更易於計算的模型版本。在這項工作中,我們建立了一個基於WaveNet的高質量帶寬擴展概念的證明,因為它具有優越的表示能力和相對容易的訓練,使得使用其他更易於計算的架構來再現結果的可能性成為可能。
2、訓練步驟
2.1 模型架構
WaveNet是一個生成模型,它將波形$x=\{x_1,...,x_T\}$的級聯概率建模為條件概率的乘積,該條件是在先前timesteps給定的樣本下給出的。條件WaveNet模型采用一個附加的輸入變量$h$,並將該條件分布建模為
$$p(\mathbf{x} | \mathbf{h})=\prod_{t=1}^{T} p\left(x_{t} | x_{1}, \ldots, x_{t-1}, \mathbf{h}\right)$$
此任務中使用了條件WaveNet模型。條件輸入$h$通過由五個擴張(dilated)卷積層組成的'條件堆棧',接着是兩個轉置(transpose)卷積,其效果是將條件輸入的上采樣因子增加四倍。自回歸(Autoregressive)輸入在[-1,1]范圍內被標准化,並通過濾波器尺寸為4和512的卷積層。然后,它們被輸入到核心WaveNet模型中,WaveNet模型有三層,每層包括10個擴張(dilated)卷積層,具有跳躍連接,就像原始WaveNet體系結構中一樣[1]。我們使用的擴張(dilation)因子是2;濾波器的大小和數目分別是3和512。Skip connection的輸出通過兩個卷積層,每個卷積層有256個濾波器。樣本值上的輸出分布使用10個分量的量化邏輯混合(quantized logistic mixture)[15]建模。
圖2:處理過程的說明。將8khz采樣的輸入音頻被轉換成對數mel頻譜表示,
然后作為WaveNet條件堆棧中的輸入。該模型輸出高采樣率24khz的音頻和更高的頻率預測從其余的信號。
2.2 數據准備
我們的模型在LibriTTS[16]數據集上進行了訓練和評估。LibriTTS與著名的LibriSpeech語料庫[17]來自相同的源材料,但包含24kHz采樣的音頻(與LibriSpeech的16kHz相反),每個樣本的采樣分辨率為16位。這兩個數據集都來自一組公共領域的有聲讀物(以及相關文本),這些讀物是由有各種口音的講英語的人在各種非錄音室條件下閱讀的,這意味着錄音中經常會有一些背景噪音。數據 train-clean-100 和 train-clean-360 子集被用於不同的訓練,每個集合中有一小部分(1-2%)用於評估。聽力評估是在test-clean子集上進行的,其中包含一組與訓練集合無關的說話人,確保訓練集合中沒有使用說話人。
2.3 訓練
該模型采用最大似然法對8kHz限帶波形計算得到的melb譜圖進行24kHz波形預測訓練。與WaveNet的其他實例一樣,在訓練期間有兩種類型的輸入到模型中,一種是包含前一時間步的樣本的自回歸輸入,另一種是條件輸入。訓練期間的自回歸輸入是教師強制的,因此輸入高質量的24kHz音頻樣本。我們從較低帶寬的音頻作為條件輸入來計算log-mel譜圖。
換句話說,WaveNet描述了之前的模型:
$$p\left(\mathbf{x}_{\mathrm{hi}} | \mathbf{x}_{\mathrm{lo}}\right)=\prod_{t=1}^{T} p\left(x_{\mathrm{hi}, t} | x_{\mathrm{hi}, 1}, \ldots, x_{\mathrm{hi}, t-1}, \mathbf{x}_{\mathrm{lo}}\right)$$
其中$x_{hi}$是自回歸建模的24kHz波形,$x_{Io}$是8kHz窄帶數據,用log mel spectrogram(對數梅爾頻譜)表示。$x_{}Io}$用作WaveNet條件設置堆棧中的輸入。
我們使用Adam[18]優化器,學習率為$10^{-4}$,momentum設置為0:9,epsilon設置為$10^{-8}$。我們使用的總共batch_size是64,每個核心的batch_size為8。每個batch有8個張量處理單元(TPU)。8*8=64.
3、實驗評估
3.1 設置
在這個評估中,我們主要感興趣的是在固定的傳統音頻編碼路徑設置中的語音增強,例如在標准GSM移動網絡上的呼叫。在這種情況下,編解碼器通常以4kHz的帶寬工作,從而產生8kHz采樣率的音頻波形。
為了生成訓練集,LibriTTS clean-100訓練集使用sox工具進行了預處理,將原始音頻通過GSM-FR編碼器,得到一個包含原始24kHz音頻信號和8kHz采樣率信號的數據集,並且對於每個聲音,使用編解碼器會導致質量進一步下降。為了在LibriTTS訓練集中生成給定話語的訓練對,從話語中的隨機點選擇350ms音頻區域。利用50ms的Hann窗(步長為12.5ms)從訓練區域的8kHz輸入音頻中產生對數mel頻譜,然后映射到80個mel頻率bins,范圍從125Hz到輸入信號的Nyquist頻率。這些參數導致條件向量$x_{I0}$在80Hz rate的時候長度為80。然后訓練一個WaveNet網絡,根據從GSM音頻計算得到的譜圖,預測同一區域的ground-true采樣率音頻。在早期的實驗中,我們發現與直接以原始波形作為條件相比,這種頻譜條件方法表現得更好。
3.2 結果
我們使用隱藏參考和Anchor(錨定)(MUSHRA)的多重刺激[20]聽力測試方法來評估我們的模型。每個監聽器(被要求測試音頻的人)都有24kHz的Ground-truth參考標記,以及幾個未標記的測試項目:24kHz參考、AMR-WB編碼音頻、GSM-FR編碼音頻(低質量錨)、8kHz音頻(使用sox中的默認設置進行下采樣)、WaveNet上采樣8kHz至-24kHz預測音頻、WaveNet上采樣GSM-FR至-24kHz預測音頻。
評分者被要求給每個測試話語一個0到100分之間的分數,使用一個滑動條,滑動條上等距區域分別標為“差”、“差”、“好”和“優秀”。評分者應該在接近100分的地方對隱藏的參考進行評分,錨刺激應該得到最低的分數。通常,MUSHRA評估是由一小部分訓練有素的評估人員進行的。然而,在這個評估中使用的評分者是未經訓練的,因此每個話語都由100個不同的評分者進行評分,以確保誤差條很窄。
圖3:我們的模型(WAVENET 8KHZ和WAVENET GSMFR)以8KHZ GSM-FR音頻信號為訓練對象,使用未壓縮8KHZ和8KHZ GSM-FR音頻進行評估,並使用MUSHRA聽力測試方法進行評估。該模型與初始音頻在24KHZ和8KHZ,以及AMR-WB 16kHz和GSM-FR 8KHZ編解碼器進行了比較。
MUSHRA測試表明,從8kHz音頻直接預測到24kHz的模型的性能略好於AMRWB編解碼器,而從GSM編碼8kHz預測到24kHz的模型的性能僅略差於AMR-WB。
從LibriTTS測試干凈語料庫中選取一組樣本進行聽力測試。通過對測試集中每個說話者隨機選擇一個3 - 4秒的話語作為樣本,這就導致了36個話語被隨機選擇8個來進行MUSHRA聽力測試。
MUSHRA聽力測試結果如圖3所示。
最后,為了直觀地說明重構樣本的質量,圖1描述了來自LibriTTS語料庫的話語的原始、reconstructed(重構)和GSM-FR音頻的頻譜圖。
圖1:來自LibriTTS語料庫的話語的語譜圖。
上:原始音頻,
中:根據GSMFR audio的頻譜從WaveNet模型中重建的音頻,
下:來自GSM-FR audio的語譜圖。
4、總結
提出了一種新的基於小波變換的語音帶寬擴展模型。該模型能夠從8kHz信號中重構出24kHz的音頻,這些信號的質量與AMR-WB編碼解碼器在16kHz時產生的信號類似或更好。我們的上采樣方法從標准的電話質量和gsm質量的音頻中產生HD-Voice質量的音頻,表明我們的音頻超分辨率方法對於提高現有電話系統的音頻質量是可行的。對於未來的工作,其他架構,如WaveRNN,可以在相同的任務上進行評估,以提高計算效率。
5、參考文獻
[1] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, WaveNet: A generative model for raw audio. in SSW, 2016, p. 125.
[2] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, et al., Natural tts synthesis by conditioning wavenet on mel spectrogram predictions, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4779 4783.
[3] W. B. Kleijn, F. S. Lim, A. Luebs, J. Skoglund, F. Stimberg, Q. Wang, and T. C. Walters, WaveNet based low rate speech coding, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 676 680.
[4] C. Garbacea, A. van den Oord, Y. Li, F. S. C. Lim, A. Luebs, O. Vinyals, and T. C. Walters, Low bit-rate speech coding with VQ-VAE and a WaveNet decoder, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.
[5] E. R. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design. USA: John Wiley &; Sons, Inc., 2004.
[6] V. Kuleshov, S. Z. Enam, and S. Ermon, Audio super resolution using neural networks, arXiv preprint arXiv:1708.00853, 2017.
[7] ESTI, GSM Full Rate Speech Transcoding, European Digital Cellular Telecommunications System, Tech. Rep. 06.10, 02 1992, version 3.2.0. [Online]. Available: https://www.etsi.org/deliver/etsi gts/06/0610/03.02. 00 60/gsmts 0610sv030200p.pdf
[8] J. Abel and T. Fingscheidt, Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. PP, pp. 1 1, 10 2017.
[9] Z.-H. Ling, Y. Ai, Y. Gu, and L.-R. Dai, Waveform modeling and generation using hierarchical recurrent neural networks for speech bandwidth extension, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 5, pp. 883 894, 2018.
[10] Y. Gu and Z.-H. Ling, Waveform modeling using stacked dilated convolutional neural networks for speech bandwidth extension. in INTERSPEECH, 2017, pp. 1123 1127.
[11] 3GPP, Mandatory speech CODEC speech processing functions; AMR speech CODEC; General description, 3rd Generation Partnership Project (3GPP), Technical Specification (TS) 26.071, 06 2018, version 15.0.0. [Online]. Available: https://portal.3gpp.org/desktopmodules/Specifications/ SpecificationDetails.aspx?specificationId=1386
[12] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van den Driessche, E. Lockhart, L. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen, N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, and D. Hassabis, Parallel WaveNet: Fast high-fidelity speech synthesis, in Proceedings of the 35th International Conference on Machine Learning, ser. Machine Learning Research, vol. 80. Stockholmsmssan, Stockholm Sweden: PMLR, 2018, pp. 3918 3926.
[13] R. Prenger, R. Valle, and B. Catanzaro, Waveglow: A flowbased generative network for speech synthesis, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.
[14] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. Oord, S. Dieleman, and K. Kavukcuoglu, Efficient neural audio synthesis, in International Conference on Machine Learning, 2018, pp. 2415 2424.
[15] T. Salimans, A. Karpathy, X. Chen, and D. P. Kingma, Pixelcnn++: A pixelcnn implementation with discretized logistic mixture likelihood and other modifications, in International Conference on Learning Representations (ICLR), 2017.
[16] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, LibriTTS: A corpus derived from librispeech for text-to-speech, arXiv preprint arXiv:1904.02882, 2019.
[17] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 5206 5210.
[18] D. P. Kingma and J. Ba, ADAM: A method for stochastic optimization, in International Conference on Learning Representations (ICLR), 2015.
[19] N. P. Jouppi, C. Young, N. Patil, D. Patterson, G. Agrawal, R. Bajwa, S. Bates, S. Bhatia, N. Boden, A. Borchers, et al., In-datacenter performance analysis of a tensor processing unit, in International Symposium on Computer Architecture (ISCA). IEEE, 2017, pp. 1 12.
[20] International Telecommunication Union, Method for the subjective assessment of intermediate sound quality (MUSHRA), ITU-R Recommendation BS.1534-1, Tech. Rep., 2001.