訓練語音降噪模型的一些感想

本文轉載自查看原文 2020-03-03 17:48 757 音頻降噪

當前基於深度學習的語音降噪方法主要分為兩個類：

基於時頻域方法中的基於mask的方法更常見一些，主要的是對語音提取頻域特征，通過計算干凈音頻和對應的加噪音頻的頻域特征計算一個頻域的mask。然后用加噪音數據訓練以mask作為label訓練。

基於時頻域方法中的非基於mask的方法，主要是對語音提取頻域特征，通過噪聲數據的頻譜特征作為輸入特征，以干凈音頻的頻譜特征作為label進行訓練。

（注：此處實驗中使用的頻域特征是stft短時傅里葉變換）

這兩種方式中基於mask的方法試驗結果相對較好，因此我們再詳細看一下基於mask的方法。那mask的方式其實有很多中：

Irm ideal ratio mask. 只考慮幅頻，不考慮相頻： square(abs(stft(clean)))/square(abs(stft(noise))+abs(stft(clean))) 在論文中也有別的表示方式，特點是取值范圍是0-1
smm Spectral Magnitude Mask ： abs(stft(clean))/abs(stft(noise)+stft(clean)) 更結合音頻頻域特征相加的性質，取值范圍（0- INF）取值范圍較大，相對於irm更難訓練一點
psm Phase-Sensitive Mask 考慮phase相位譜：（abs(stft(clean))/abs(stft(noise)+stft(clean))）*cos(theta) theta 是相角。考慮了相位譜，語音通過mask 重建出來更完整，失真更少，取值范圍更大（-INF ～ INF）。

試驗中發現一般情況下irm 更好訓練，容易收斂，Psm 訓練結果的指標更好一些。說到指標論文里一般使用：

基於時域的方法，我試了類似wavenet/tcnn 的方法，直接輸入wav的采樣點，有個前面加了二維卷積類似 stft頻域變換，輸出采樣點的值。更簡單明了一些。但是模型大小更大，而且訓練過程中的參數設置影響較大。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於混合模型的語音降噪實踐關於Scala的一些感想（一）一些感想 - 2019 圖像降噪的一些總結關於《Java封面》一些感想關於開發WPF的一些感想關於MATLAB使用的一些感想 USACO 完結的一些感想關於接口開發和聯調的一些感想連續加班后的一些感想