技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別


摘要:聲音也是識別對象的一種重要數據源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。

一、思路

1、SoundNet模型在視頻數據中先預訓練,視頻任務可能是場景識別,可參考這篇文章SoundNet: Learning Sound Representations from Unlabeled Video。

2、遷移學習:5層的soundnet只取前3層作為遷移層,在新數據集中訓練時保持着三層不變,其余兩層隨機初始化,再訓練。

3、在新數據如IEMOCAP中fine-tuning

二、實驗數據

三、實驗結果

評價指標:AUC

Scratch表示隨機初始化的SoundNet。

四、總結

1、面對音頻數據稀缺,給出了很好的解決思路,可根據SoundNet文章中的思路,先從視頻數據入手,學習SoundNet參數,然后應用到自己的場景中;

2、跨語言遷移學習:文章中從英語場景遷移到漢語場景,效果比單一數據訓練提升很大;

3、YFCC100m 、Google AudioSet可用於預訓練模型。

參考文獻:

[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM