論文地址:2018_用於音頻超分辨率的時頻網絡
博客作者:凌逆戰
代碼地址:https://github.com/moodoki/tfnet
博客地址:https://www.cnblogs.com/LXP-Never/p/12345950.html
摘要
音頻超分辨率(即帶寬擴展)是提高音頻信號時域分辨率的一項具有挑戰性的任務。最近的一些深度學習方法通過將任務建模為時域或頻域的回歸問題,取得了令人滿意的結果。在本文中,我們提出了一種新的模型體系結構——時頻網絡(TFNet,Time-Frequency Network),這是一種在時域和頻域同時進行監控的深度神經網絡。我們提出了一種新的模型體系結構,允許兩個域共同優化。結果表明,我們的方法在數量和質量上都優於目前最先進的方法。
索引術語:帶寬擴展,音頻超分辨率,深度學習
1、引言
超分辨率(SR)是從低分辨率(LR)輸入重建高分辨率(HR)數據的任務。這是一個具有挑戰性的任務,因為它是ill-posed的性質,特別是當上采樣因子很高的時候。通過處理SR問題,我們可以獲得對數據先驗的理解,並引導相關領域的改進,如壓縮和生成建模。
近年來,圖像超分辨率算法在計算機視覺領域得到了廣泛的關注,並將SR建模為一種深度神經網絡回歸任務,取得了顯著的成功。在這項工作中,我們探索了音頻數據的類似SR任務(即學習從LR到HR音頻幀的映射)。為了可視化重建,在圖1中我們展示了LR輸入、HR重建和ground truth的頻譜圖。
圖1:LR輸入(頻率4kHz以上缺失),HR重構,HR ground truth。我們的方法成功地從LR音頻信號中恢復了高頻分量。
Li[1]等人提出了一種深度神經網絡來學習頻譜幅值從LR到HR的映射,完全忽略缺失的高頻分量的相位。在[2]中,Kuleshov等人提出了一種深度神經網絡來直接在時域中學習LR到HR的映射。雖然這些模型顯示了有希望的結果,但每個模型都只在時域或頻域工作,並側重於信號的不同方面。目前也只有這兩個人提供了代碼。
為了充分利用時域和頻域信息,我們提出了時頻網絡(TFNet),它是一種深度神經網絡,可以選擇何時將時域和頻域信息用於音頻SR。
乍一看,在頻域和時域建模似乎是一個冗余的表示;從Parseval定理可知,預測誤差的L2差異,無論是在頻域還是在時域都是完全相同的。然而,從LR到HR在時域或頻域的回歸解決了一個非常不同的問題。在時域上,它類似於圖像的超分辨率任務,將音頻塊從LR映射到HR。另一方面,頻域SR與語意圖像修復任務類似[3,4]。給定頻譜的低頻分量,輸出高頻分量,如圖2所示。因此,為了充分利用這兩種方法的優點,我們建議在時域和頻域內對音頻SR進行聯合建模。
圖2:圖像SR的輸入輸出,語義圖像修復,音頻SR的時域和頻域說明。時域中的音頻SR類似於圖像SR,其中LR輸入中缺少“edges邊”。另一方面,譜域音頻SR可以看作是譜圖的圖像修復,即給定底層低頻“圖像”,對剩余圖像進行預測。
2、相關工作
頻帶擴展
語音社區將音頻超分辨任務作為帶寬擴展進行研究。提出了利用低頻[5]估計高頻分量的各種方法。如線性映射[6,7]、混合模型[8,9,10]、神經網絡[11,12,1,2]。
深度神經網絡的單圖像超分辨率
深度卷積神經網絡(CNNs)是目前單圖像超分辨率研究的最新進展。已經提出了許多體系結構[13,14,15]。這些模型都是完全卷積的,並帶有早些時候的skip / redisual連接。
深度神經網絡的語義圖像修復
深度神經網絡在語義圖像修復任務中也表現出了較強的性能。利用CNNs,[3,4]證明了預測圖像中掩蔽區域的可能性。與超級分辨率類似,這些模型也是完全卷積的。從這些模型中獲得靈感,我們的深層網絡架構也遵循類似的設計原則。
3、方法
我們將音頻SR定義為回歸任務,即預測HR音頻幀,$y\in \mathbb{R}^L$,給定LR音頻幀,$x\in \mathbb{R}^{L/R}$,其中$R$是下采樣因子。
3.1 時頻網絡
我們提出時頻網絡(TFNet),這是一個完全可微的網絡,可以端到端的訓練。如圖3所示,設$\Theta $為模型中的所有參數,我們的模型由一個基於全卷積的編碼器-解碼器網絡$H(x; \Theta )$構成。對於給定的LR輸入x,H預測HR音頻,重建$\hat{z}$和HR頻譜幅度$\hat{m}$。利用我們提出的頻譜融合層合成最終的輸出。
圖3:時頻網絡結構。TFNet同時利用時域和頻域來完成音頻信號的重構,它包含一個明確建模重構頻譜幅值的分支,而其他的分支建模重構時域音頻。最后將這兩個分支的輸出與我們的頻譜融合層相結合,合成高分辨率的輸出。
頻譜融合層
頻譜融合層結合$\hat{z}$和$\hat{m}$輸出最終的重建$\hat{y}$,如下圖所示:
$$\begin{aligned} M=& w \odot|\mathscr{F}(\hat{z})|+(1-w) \odot \hat{m} \\ \hat{y} &=\mathscr{F}^{-1}\left(M e^{j \angle \mathscr{F}(\hat{z})}\right) \end{aligned}$$
其中$\mathscr{F}$表示傅里葉變換,$\odot$是元素的乘法運算,$w$是可訓練參數。
這一層是可微的,可以端到端的訓練。關鍵的優點是,該層可強制網絡對波形的頻譜幅度進行建模,而模型的其余部分可以在時域內建模相位。
我們對網絡體系結構的設計是基於這樣的觀察:卷積層只能捕獲局部關系,特別擅長捕獲視覺特征。當我們利用短時傅里葉變換對賦值和相位進行可視化處理時,幅值明顯的視覺結構,而相位沒有,因此,我們只在譜域中對幅值進行建模。
頻譜復制器
如前所述,卷積層通常捕獲局部關系(即,輸入-輸出關系的范圍受到感受野的限制)。這導致了一個問題,因為我們想要輸出的高頻分量依賴於輸入的低頻分量。例如,當向上采樣4倍時,接受域至少需要為總頻率bin的3/4,這將需要非常大的內核或許多層。為了解決接受域的問題,我們將可用的低頻頻譜復制到高頻頻譜中,高頻頻譜最初都是零,如圖4所示。
圖4:在4x SR任務上的頻譜復制層圖解。低頻分量被復制四次以替換零
損失函數
為了訓練我們的網絡,我們利用$l_2$重建損失和權重衰減。總的目標函數是最小化下面關於$\Theta $的損失函數
$$公式1:\mathcal{L}=\sum_{(x, y) \in \mathcal{D}}\|y-\hat{y}(x)\|_{2}+\lambda\|\Theta\|_{2}$$
其中$D$是所有(LR,HR)對的訓練集,$\lambda $是正則化器的加權超參數,在我們的所有實驗中選擇為0:0001。
3.2、實現細節
預處理
對於訓練,我們進行了沉默過濾以丟棄能量閾值為0.05以下的序列脈沖,計算結果A。我們發現這提高了訓練的收斂性,並穩定了梯度。對於測試和評估,我們不過濾沉默。
網絡架構
我們的網絡由兩個具有相似架構的分支組成;時域分支和頻域分支。為了公平的比較,我們的網絡遵循了AudioUNet[2]的架構設計模式,包括編碼器和解碼器塊。為了保持模型大小大致相同,每個分支中的過濾器數量減半。我們的網絡以8192段音頻作為輸入。
對於頻域分支,我們對序列進行離散傅里葉變換(DFT)。由於所有的音頻信號都是實數,所以我們拋棄了所有負相位的分量,得到了4097個傅立葉系數。最后,求這些系數的大小。
如前所述,輸入的高頻分量為零,因此使用頻譜復制器,我們用低頻分量的副本替換零值。具體來說,對於4x上采樣,我們在1025到2048、2049到3072和3073到4096重復第1個分量到第1024個分量。第0個分量(直流分量)直接通過網絡,最后融合。
訓練細節
我們使用流行的Adam 優化器[16]來訓練我們的網絡。初始學習速率為$3e^{-5}$,采用多項式學習速率衰減調度,學習速率為0.5。我們所有的模特都經過了50萬步的訓練。
4、實驗
數據集和准備
我們在兩個數據集上評估我們的方法:VCTK數據集[17]和Piano數據集[18]。
VCTK數據集包含來自109個以英語為母語的人的語音數據。每個說話人會讀出大約400個不同的句子,每個說話人的句子也不同,總共有44個小時的語音數據。
根據之前的工作[2],我們將數據分為88%的培訓6%的驗證和6%的測試,沒有說話人重疊。
對於數據集中的每個文件,我們通過以目標較低采樣率的奈奎斯特速率執行帶截止頻率的低通濾波器,將音頻重采樣到較低的采樣率。然后通過雙三次插值將LR序列向上采樣到原始速率。為了編制訓練(LR, HR)對,我們從重采樣信號及其對應的原始信號中提取了8192個重疊度為75%的樣本長度子序列。
對於采樣速率為16kHz的VCTK數據集,它對應的子序列約為500ms,每個子序列的起始距離為125ms。剩下的50%的序列會被丟棄,因為得到的數據集太大,無法有效地訓練。
此外,為了了解模型的性能是否會受到數據多樣性的影響,我們建立了一個新的數據集(VCTKs),它只包含說話者VCTK的一個子集。這包括大約30分鍾的演講。音頻數據以16kHz的采樣率提供。
鋼琴數據集包含10小時的貝多芬奏鳴曲,采樣率為16kHz。由於音樂的重復性,我們在文件級別上對Piano數據集進行了分割以進行公平的評估。
評估
為了進行評價,我們計算了信噪比(SNR)和對數譜距離(LSD)的相似性度量。
在時域內,信噪比捕獲了預測和fround-truth數據之間的加權差。另一方面,LSD在頻域[19]捕獲預測與fround-truth之間的差異。
$$公式2:\mathrm{LSD}(y, \hat{y})=\frac{10}{L} \sum_{l=1}^{L}\left\|\log _{10} \mathscr{F}\left(y_{l}\right)-\log _{10} \mathscr{F}\left(\hat{y}_{l}\right)\right\|_{2}$$
其中下標$l$表示音頻短窗口段的索引。
結果
根據表1中[1,2]的結果,我們將我們的方法與三個不同的基線、一個簡單的雙三次插值和兩個深度網絡方法進行了比較。特別地,我們實驗了不同的下采樣率,從4x開始,在這里質量的下降變得清晰可見。對於VCTK,我們的方法在4倍上采樣的情況下比基線方法的信噪比大約高出1.5dB。8倍上采樣甚至比基線 6倍上采樣結果高1.5dB SNR。在Piano數據集上,我們的方法性能與基線方法相當。需要注意的是,在[2]中的參數數量與我們的模型相同;這進一步證明了我們的model架構在表達上更加有效。
表1:對不同上采樣率下的測試集進行定量比較。左/右結果為信噪比/LSD。
表2:消融研究,評估時域和譜域各分支的性能。左/右結果為信噪比/LSD。
細節分析
此外,為了確認我們的網絡架構同時利用了時域和頻域,我們進行了消融(ablation)研究。我們通過移除時域或頻域分支來評估模型性能,如表2所示。對於譜支,我們假設重構時高頻分量為零相位。
5、結論與未來工作
本文提出了一種時頻網絡(TFNet),這是一種深度卷積神經網絡,利用時域和頻域來實現音頻的超分辨。與現有方法相比,我們的新型頻譜復制和融合層具有更好的性能。最后,TFNet已經證明了具有冗余表示有助於對音頻信號進行建模。我們認為該方法的經驗結果是有趣的和有前途的,這為進一步的理論和數值分析提供了依據。此外,我們希望將此觀察推廣到其他音頻任務,例如音頻生成,目前最先進的WaveNet[20]是一種時域方法。
文獻
[1] Kehuang Li, Zhen Huang, Yong Xu, and Chin-Hui Lee,“Dnn-based speech bandwidth expansion and its application to adding high-frequency missing features for automatic speech recognition of narrowband speech,” in Proc. INTERSPEECH, 2015.
[2] Volodymyr Kuleshov, S Zayd Enam, and Stefano Ermon,“Audio super-resolution using neural networks,”, 2017.
[3] Deepak Pathak, Philipp Kr¨ahenb¨uhl, Jeff Donahue,Trevor Darrell, and Alexei Efros, “Context encoders:Feature learning by inpainting,” in Computer Vision and Pattern Recognition (CVPR), 2016.
[4] Raymond A. Yeh, Chen Chen, Teck Yian Lim,Schwing Alexander G., Mark Hasegawa-Johnson, and Minh N. Do, “Semantic image inpainting with deep generative models,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, equal contribution.
[5] Bernd Iser and Gerhard Schmidt, “Bandwidth extension of telephony speech,” Speech and Audio Processing in Adverse Environments, pp. 135–184, 2008.
[6] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,“Generation of broadband speech from narrowband speech using piecewise linear mapping,” in Fifth European Conference on Speech Communication and Technology, 1997.
[7] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,“Generation of broadband speech from narrowband speech based on linear mapping,” Electronics and Communications in Japan (Part II: Electronics), vol. 85,no. 8, pp. 44–53, 2002.
[8] Geun-Bae Song and Pavel Martynovich, “A study of hmm-based bandwidth extension of speech signals,” Signal Processing, vol. 89, no. 10, pp. 2036–2044, 2009.
[9] Hyunson Seo, Hong-Goo Kang, and Frank Soong, “A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise,” in Acoustics,Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 6087–6091.
[10] Saeed Vaseghi, Esfandiar Zavarehei, and Qin Yan, “Speech bandwidth extension: Extrapolations of spectral envelop and harmonicity quality of excitation,” in Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. IEEE, 2006, vol. 3, pp. III–III.
[11] Juho Kontio, Laura Laaksonen, and Paavo Alku, “Neural network-based artificial bandwidth expansion of speech,” IEEE transactions on audio, speech, and language processing, vol. 15, no. 3, pp. 873–881, 2007.
[12] Bernd Iser and Gerhard Schmidt, “Neural networks versus codebooks in an application for bandwidth extension of speech signals,” in Eighth European Conference on Speech Communication and Technology, 2003.
[13] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang, “Image super-resolution using deep convolutional networks,” IEEE Trans. Pattern Anal. Mach.Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016.
[14] Jiwon Kim, Jung Kwon Lee, and Kyoung Mu Lee, “Accurate image super-resolution using very deep convolutional networks,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR Oral), June 2016.
[15] Wei-Sheng Lai, Jia-Bin Huang, Narendra Ahuja, and Ming-Hsuan Yang, “Deep laplacian pyramid networks for fast and accurate super-resolution,” in IEEE Conference on Computer Vision and Pattern Recognition,2017.
[16] Diederik Kingma and Jimmy Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[17] Junichi Yamagishi, “English multi-speaker corpus for cstr voice cloning toolkit,” http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html, 2012.
[18] Soroush Mehri, Kundan Kumar, Ishaan Gulrajani,Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, and Yoshua Bengio, “Samplernn: An unconditional end-to-end neural audio generation model,”2016, cite arxiv:1612.07837.
[19] Augustine Gray and John Markel, “Distance measures for speech processing,” IEEE Transactions on Acoustics,Speech, and Signal Processing, vol. 24, no. 5, pp.380–391, 1976.
[20] Aron van den Oord, Sander Dieleman, Heiga Zen,Karen Simonyan, Oriol Vinyals, Alexander Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu,“Wavenet: A generative model for raw audio,” in Arxiv,2016.