相信很多人都會有這種疑惑,我們用標准數據來訓練,但是在真是的測試過程中,輸入數據的並不會是標准數據,導致了訓練與測試的兩個過程中數據分布的不一致。
首先要說,訓練集合與測試集合的分布完全一樣,這個不太現實,因為相對於有限的訓練集,測試集合理論上趨於無限大,所以無法窮盡。然而我們也不能為了單單去擬合我們手里的測試集而調整模型。
那么要了解業務場景,要知道你的產品需要到哪些場景中,人為的分析數據源,這樣收集到的數據可能會更好。
這里假定你有個識別人臉的應用,你的數據集是來自某知名人臉數據庫(簡稱原數據庫),10w張左右,圖片清晰標注明確。而你的用戶是手機上傳圖像,圖像模糊且場景較復雜,1w張左右。那么現在其實你應該關心的是1w張用戶數據,但是1w張樣本太少了(假設),那么此時可以隨機划分出一部分用戶圖像與原數據庫混合訓練,但是測試集合一定是用戶圖像而非你的原數據庫。那么這樣的模型可能就會表現的更好一些(相對)。