一、數據挖掘流程介紹
1.數據讀取
-讀取數據
-統計指標
-數據規模
2.數據探索(特征理解)
-單特征的分析,諸個變量分析對結果y的影響(x,y的相關性)
-多變量分析(x,y之間的相關性)
-統計繪圖
3.數據清洗和預處理
-缺失值填充
-標准化、歸一化
-特征工程(篩選有價值的特征)
-分析特征之間的相關性
4.建模
-特征數據的准備和標簽
-數據集的切分
-多種模型對比:交叉驗證、調參(學習曲線,網格搜索)
-集成算法(提升算法)XGBoost、GBDT、light-GBM、神經網絡(多種集成)
二、數據文件說明
本案例所用泰坦尼克號數據存儲在文件 train.csv 中,來源於kaggle競賽
三、Python代碼實現
1.數據讀取
2.數據探索
3.數據清洗和預處理
3.3數據處理
4.建模
- 導包
- 划分數據集
ROC曲線的含義:受試者工作特征曲線
#評價統計量計算
- 1.ROC曲線下的面積值在0.5和1之間。
- 2.在AUC>0.5的情況下,AUC越接近於1,說明效果越好。
- AUC在 0.5~0.7時有較低准確性,
- AUC在0.7~0.9時有一定准確性,
- AUC在0.9以上時有較高准確性。
- 3.AUC小於等於0.5時,說明該方法完全不起作用。
從上圖可以看出:AUC值等於0.83,說明效果較好
通過比較發現裝代法的得分最高,約為0.8659,即使用該方法效果最好。