05-訓練數據不足的影響及處理方式


  一個模型所能提供的信息一般來源於2個方面,一是訓練數據中蘊含的信息,二是在模型的形成過程中(包括構造,學習,推理等),人們提供的先驗信息。當訓練數據不足時,說明模型從原始數據中獲取的信息比較少,這種情況下要保證模型的效果,就需要更多的先驗信息。先驗信息可以作用在模型上,例如讓模型采用特定的內在結構,條件假設或添加其他一些約束條件;先驗信息也可以直接作用在數據集上,即根據特定的先驗假設去調整,變換或擴展訓練數據,讓其展現出更多的,更有用的信息,以利於后續模型的訓練和學習。

在圖像分類任務中,訓練數據不足會帶來什么問題?

  具體到分類任務上,訓練數據不足帶來的問題主要體現在過擬合方面。即模型在訓練樣本上的效果可能不錯,但在測試數據集上泛化效果不佳。

如何緩解數據量不足帶來的問題?

  一是基於模型的方法,主要是采用降低過擬合風險的措施,包括簡化模型 , (將非線性模型簡化為線性模型),添加約束項以縮小假設空間(L1/L2正則項),集成學習,Dropout超參數等。

  二是基於數據的方法:主要通過數據擴充,即根據一些先驗知識,在保持特定信息的前提下,對原始數據進行適當變換以達到擴充數據集的效果。

具體到圖像分類任務重,在保持圖像類別不變的前提下,可以對訓練集中每幅圖像進行以下變換。

  1. 一定程度內的隨機旋轉,平移,縮放,裁剪,填充,左右翻轉等,這些變換對應着同一個目標在不同角度的觀察結果。

  2. 對圖像中像素添加噪聲擾動,比如椒鹽噪聲,高斯白噪聲。

  3. 顏色變換。例如在RGB顏色空間上進行主成分分析,得到3個主成分特征向量p1,p2,p3.及其對應的特征值,然后再么給像素的RGB值上添加增量。

  4. 改變圖像的亮度,清晰度,對比度,銳度。

  除了直接在圖像空間進行變換,還可以先對圖像進行特征提取 ,然后再圖像的特征空間內進行變換,利用一些通用的數據擴充或上采樣技術,例如SMOTE算法。

  拋開上訴這些啟發式變化方法,使用生成模型也可以合成一些新樣本,例如非常流行的生成式對抗網絡模型。

  此外 借助已有的其他模型或數據進行遷移學習在深度學習中也十分常見。例如,對大部分的圖像進行分類任務,並不需要從頭開始訓練模型,而是借用一個在大規模數據集上預訓練好的通用模型,並在針對目標任務的小數據集上進行微調,這種微調操作也可以看作一種簡單的遷移學習。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM