每年一度的華為杯研究生數學競賽可謂“鳳凰涅槃”,四天三夜的大戰,得獎可獲得上海落戶積分,每年參與人數眾多~,處理建模問題時,筆者的一般流程:明確目標——數據采集——數據清洗——選擇特征——訓練模型——評估模型(驗證模型),使用工具是MATLAB和EXCEL,針對不同的模型的流程有不同的調整 PS:有時序影響的特征甚至要進行OTV(out time verification)后續發例子。
問題描述:
PS:原題有5問,此處指針對前三問解答,如需原題請私信或官網下載。
技術路線圖是圖形化展示我們解決問題思路的有效方法,在競賽、研究和實際項目中都有一定意義,針對該問題的技術路線如下:
明確目標:建立預測模型,輸入若干X(367個中篩選),輸出Y(RON損失預測值),問題定位回歸預測問題;
數據采集:大賽舉辦方已給出,樣本數量325條,特征數量367個(原始樣本);
數據清洗:對樣本的飽和度進行分析,少部分缺失值進行補充,異常值進行剔除,為后續建模做准備工作;
選擇特征:舉辦方提示的很明確,篩選不超過30個變量,采用Relief-F算法等快速選擇有效變量,通過查看變量的相關系數矩陣、IV值評估變量的有效性。
訓練模型:回歸預測的模型比較多,隨機森林回歸和BP神經網絡是比較常用的方法,但神經網絡算法的調參過程又十分復雜且重要,在此提出了基於遺傳算法的BP神經網絡,對神經網絡的權重和閾值進行優化。
評估模型:訓練完成模型之后驗證模型是必不可少的步驟,回歸問題和分類問題有不同的評估指標(后續專門分析),此處回歸模型選擇 預測值和真實值之間的R方、運行時間作為評估指標,最終得出基於遺傳算法的BP算法效果較好