經典的深度學習網絡AlexNet使用數據擴充(Data Augmentation)的方式擴大數據集,取得較好的分類效果。在深度學習的圖像領域中,通過平移、 翻轉、加噪等方法進行數據擴充。但是,在音頻(Audio)領域中,如何進行數據擴充呢?
歡迎加入我的QQ群`923414804`與我一起學習,群里有我學習過程中整理的大量學習資料。加群即可免費獲取
Audio
音頻的數據擴充主要有以下四種方式:
- 音頻剪裁(Clip)
- 音頻旋轉(Roll)
- 音頻調音(Tune)
- 音頻加噪(Noise)
音頻處理基於librosa音頻庫;矩陣操作基於scipy和numpy科學計算庫。
以下是Python的實現方式:
音頻剪裁
音頻旋轉
音頻調音
音頻加噪,注意:在添加隨機噪聲時,保留0值,否則刺耳難忍!
OK, that's all! Enjoy it!