【阿里雲-天池數據分析競賽】工業蒸汽量預測項目總結

本文轉載自查看原文 2020-04-14 11:27 1237

項目背景：影響火力發電的核心因素是鍋爐所產生的蒸汽量。鍋爐產生的蒸汽量受到燃料供給量、供水量、鍋爐的床溫、鍋爐的壓力等諸多因素的影響。
項目要求：利用鍋爐傳感器采集到的鍋爐工況數據，對鍋爐所產生的蒸汽量進行預測。
項目數據：數據為鍋爐傳感器采集的關於鍋爐工況的脫敏數據。數據分成訓練數據（train.txt）和測試數據（test.txt），其中字段”V0”-“V37”，這38個字段是特征變量，”target”字段是目標變量。
評估指標：本項目結果評估指標為均方誤差（Mean Squared Error, MSE）。

該項目的基本思路如下圖所示。項目所有流程均基於Python實現。

該項目要求利用給定的數據（共包括38個特征，數值型）來對蒸汽量進行預測，因此考慮采用回歸方法進行預測。同時，為了提高預測的准確率（盡量降低MSE），考慮基於集成學習思想的多個回歸模型集成方法。

利用Python第三方庫pandas_profiling對訓練集生成描述性統計報告。發現該數據均為數值型數據，無缺失值。
合並訓練集與測試集，對數據在每個特征上的分布進行可視化，觀察訓練集與測試集在每個特征上的分布情況。通過觀察發現：V5、V9、V11、V17、V22、V28特征上訓練集與測試集分布差異較大，如下圖所示。
通過數據分布可視化，除了發現存在訓練集與測試集分布不均的情況外，還發現數據在許多特征上存在偏態性。

異常值處理：給定數據經過脫敏，無法了解每個特征的具體含義，所以異常值的界定較為模糊，所以在項目中沒有進行異常值處理。經過多次實驗發現該項目異常值處理與否對最終結果影響不大。
缺失值處理：經過數據觀察，該脫敏數據數據完整，不存在缺失值。
數據偏態處理：通過觀察每個特征的數據分布，對右偏數據采用對數化處理；對左偏數據采用指數化處理。

對於該回歸問題，本項目選擇的模型有：

通過K折交叉驗證計算上述模型的MSE的均值和標准差。

對訓練好的多模型進行簡單的集成融合，生成最終的模型Average_model

使用Average_model對測試集進行蒸汽量預測，得到最終結果：

最終均方誤差
0.1153

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 天池題目：工業蒸汽預測（一）- 數據探索數據分析項目之：北京地區短租數據集分析及價格建模預測（天池大數據競賽）天池_短租數據分析天池_二手車交易價格預測數據分析阿里雲的金融風控-貸款違約預測_數據分析【Kaggle-數據分析競賽】House Price Prediction 項目總結工業數據分析手冊（一） Kaggle經典數據分析項目：泰坦尼克號生存預測！【競賽項目】阿里天池數據挖掘比賽——快來一起挖掘幸福感 python 數據分析實踐--（1）收入預測分析