[問題] 分類模型泛化能力不好


這個問題在各個領域的分類問題上都會出現,根本上還是數據集的問題。就像是做視頻剪輯的人說的,真正做視頻的高手會在錄制視頻時下更多的功夫,而不是在后期處理上,視頻質量的好壞很大程度決定於錄制視頻的手法。類似的,數據集分布過於雜合交錯,訓練出的模型連在本地測試集上效果都不好;而數據集分布過於單一明了,訓練出的模型在實際應用時會有很大的不適應。

目前做的性別分類和年齡估計應用,就出現了泛化能力不好的問題。它們選取的數據集來源於以下幾處:男女成人聲音來源於廣播節目里的對話,特點是背景聲明顯;小孩聲來源於幼兒園實際錄制,有噪聲小的,也有噪聲很大的,沒有噪聲適中的。以這樣的數據集訓練出的模型,對專業播音員無噪音環境下錄制的聲音進行測試,識別效果很差,表明該分類模型的泛化能力不好。但是,一旦加入一定量的數據到訓練集,對該無噪音播音聲的識別效果就會明顯提高,而且對其它測試的識別效果不會降低太多。

所以結論是,遇到測試效果不好的數據,選取一部分該數據加入訓練集,會對模型的泛化能力有幫助;然而這一做法的最大問題就是,並不是個elegant的做法,而且不是長久之計。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM