實時語音通信發展到今天,用戶對通話語音質量提出了越來越高的要求。由於終端設備的多樣性以及使用場景的差異,聲音問題依然存在。傳統的音頻處理技術從聲音信號本身出發,挖掘其時頻特性,作出假設,建立物理模型,很多參數都需要人工進行精細化微調,比較費時費力。隨着AI技術的發展,憑借着其強大的擬合能力,利用數據驅動,為改善音頻體驗提供了更多的可能性。
關於理論部分,包括論文有很多,每種想法都存在一些問題,包括工程方面的,如需做落地,效果穩定良好,還需要做很多更多的工作,這里稍微做了下總結,深度學習降噪基本都在這份分享的PPT上面,降噪部分有些文章可能有些不太新了,但是還是有學習參考意義的。
此處就分享幾張DNN處理后的樣本,增加一下新手的信心,處理非平穩噪聲,效果還是非常明顯的。
white:

destroyerengine:

n32:

n38

n61:

sil:

coffee:

PPT鏈接地址:
百度雲盤
鏈接: https://pan.baidu.com/s/1vvUiiGtu-HUdZwclBSInZA 提取碼: bsc5
實時語音通信的總結和深度學習降噪資料都可以直接在QQ群下載到
QQ群:音頻信號處理讀書會 485186545
如上群已滿,請加新群: 音頻處理與機器學習 238816966
