摘要:聲音也是識別對象的一種重要數據源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。
一、思路
1、SoundNet模型在視頻數據中先預訓練,視頻任務可能是場景識別,可參考這篇文章SoundNet: Learning Sound Representations from Unlabeled Video。
2、遷移學習:5層的soundnet只取前3層作為遷移層,在新數據集中訓練時保持着三層不變,其余兩層隨機初始化,再訓練。
3、在新數據如IEMOCAP中fine-tuning
二、實驗數據
三、實驗結果
評價指標:AUC
Scratch表示隨機初始化的SoundNet。
四、總結
1、面對音頻數據稀缺,給出了很好的解決思路,可根據SoundNet文章中的思路,先從視頻數據入手,學習SoundNet參數,然后應用到自己的場景中;
2、跨語言遷移學習:文章中從英語場景遷移到漢語場景,效果比單一數據訓練提升很大;
3、YFCC100m 、Google AudioSet可用於預訓練模型。
參考文獻:
[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.