數據挖掘案例分析-泰坦尼克號數據


一、數據挖掘流程介紹

  1.數據讀取
      -讀取數據
      -統計指標
      -數據規模
  2.數據探索(特征理解)
      -單特征的分析,諸個變量分析對結果y的影響(x,y的相關性)
      -多變量分析(x,y之間的相關性)
      -統計繪圖
  3.數據清洗和預處理
      -缺失值填充
      -標准化、歸一化
      -特征工程(篩選有價值的特征)
      -分析特征之間的相關性
  4.建模
      -特征數據的准備和標簽
      -數據集的切分
      -多種模型對比:交叉驗證、調參(學習曲線,網格搜索)
      -集成算法(提升算法)XGBoost、GBDT、light-GBM、神經網絡(多種集成)

二、數據文件說明

  本案例所用泰坦尼克號數據存儲在文件 train.csv 中,來源於kaggle競賽

三、Python代碼實現

1.數據讀取

 

 

 2.數據探索

 

 

 

 

 

 3.數據清洗和預處理

 3.1  提取性別身份,並將少數類歸為其他

 

 

 3.2  缺失值填充

3.2.1  填補Age缺失值

 3.2.2  填充港口數據

  

  

  

  

 3.3數據處理

3.3.1  年齡分段

 

 3.3.2  數值化

 

  

 3.3.3  獨熱編碼

 

 3.3.4  變量選擇

 4.建模

  • 導包

 

  •  划分數據集

 4.1  logistic

 4.2  knn近鄰算法

 

 4.3  網格搜索

 

 4.4  決策樹

 4.5  roc曲線

ROC曲線的含義:受試者工作特征曲線

#評價統計量計算

  • 1.ROC曲線下的面積值在0.5和1之間。
  • 2.在AUC>0.5的情況下,AUC越接近於1,說明效果越好。
    • AUC在 0.5~0.7時有較低准確性,
    • AUC在0.7~0.9時有一定准確性,
    • AUC在0.9以上時有較高准確性。
  • 3.AUC小於等於0.5時,說明該方法完全不起作用。

 

 

 

 

 從上圖可以看出:AUC值等於0.83,說明效果較好

4.6  混淆矩陣

4.7  集成算法-裝袋法 

 

通過比較發現裝代法的得分最高,約為0.8659,即使用該方法效果最好。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM