機器學習中數據量多少與模型過擬合欠擬合之間的關系


參考鏈接:https://blog.csdn.net/insular_island/article/details/39099721 

1、從模型方面考慮。舉例說明:本身問題是二次的,用線性模型處理問題就是欠擬合,用三次及更高次處理問題就是過擬合。但是這里未考慮數據量的多少,只是針對本身模型階次的考慮。而且現實問題,越強大的模型是很難確定模型復雜度的。

2、處理相同的問題時,在數據量多的情況,可以用相對復雜的模型處理問題,在數據量少的情況下,可以用相對簡單的模型處理問題。過擬合:當數據量太少時,模型無法完成充分的訓練,模型過度擬合用於訓練的少量數據的信息,對測試數據效果不好,泛化能力差;欠擬合:數據量很多,但是模型太簡單沒有充分利用數據信息模型不夠准確。

3、欠擬合:表現為模型特征維度過少,參數值較小等情況,此時模型過於簡單但是數據量很大,所用模型沒有充分學習大量數據提供的信息,模型准確性差; 
       解決方法:(1)增加特征維度;,增大參數值,換用更為復雜的模型等。
  過擬合:表現為特征維度過多,參數值過大,此時模型假設過於復雜,但是訓練數據過少,噪聲過多,導致擬合的函數完美的擬合訓練集,但對新數據的測試集預測結果差,泛化能力差。
      解決方法:(1)減少特征維度;(2)正則化,降低某些過大的參數值。(3)在神經網絡中dropout, 隨機刪減一些神經元。

 

綜上所屬:可以總結為(1)當模型在訓練集上准確性一般,但是在測試集上表現也尚可,即泛化能力好時為欠擬合;(2)當模型在測試集上表現不好,泛化能力差,但是對於訓練數據准確性高時表現為過擬合;(3)兩者皆不好時考慮進一步數據與處理和特征選擇或者換模型;(4)兩者都好時模型能夠較好的擬合現有數據,皆大歡喜。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM