原文:泰坦尼克號-數據挖掘項目實戰

一,典型課題研究 建立一個預測模型來回答以下問題: 什么樣的人更有可能生存 二,數據 ,數據源:https: www.kaggle.com c titanic ,用到的庫: Numpy 科學計算庫 主要用來做矩陣運算,什么 你不知道哪里會用到矩陣,那么這樣想吧,咱們的數據就是行 樣本 和列 特征 組成的,那么數據本身不就是一個矩陣嘛。 Pandas 數據分析處理庫 很多小伙伴都在說用python處 ...

2020-05-25 19:31 0 3331 推薦指數:

查看詳情

數據挖掘案例分析-泰坦尼克號數據

一、數據挖掘流程介紹   1.數據讀取    -讀取數據   -統計指標   -數據規模  2.數據探索(特征理解)   -單特征的分析,諸個變量分析對結果y的影響(x,y的相關性)    -多變量分析(x,y之間的相關性)    -統計繪圖  3.數據清洗和預處理 ...

Tue Sep 24 21:22:00 CST 2019 0 954
決策樹之泰坦尼克號實戰

決策樹分類的應用場景非常廣泛,在各行各業都有應用,比如在金融行業可以用決策樹做貸款風險評估,醫療行業可以用決策樹生成輔助診斷,電商行業可以用決策樹對銷售額進行預測等。 基於決策樹還誕生了很多數據挖掘算法,比如隨機森林(Random forest)。 sklearn 中的決策樹模型 到目前為止 ...

Mon Apr 08 04:03:00 CST 2019 0 841
機器學習項目實戰----泰坦尼克號獲救預測(一)

一、任務基礎 泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日,在她的處女航中,泰坦尼克號在與冰山相撞后沉沒,在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會,並為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇 ...

Sun Aug 11 01:00:00 CST 2019 3 2978
機器學習項目實戰----泰坦尼克號獲救預測(二)

四、特征重要性衡量 通過上面可以發現准確率有小幅提升,但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了,使用的特征似乎也已經使用完了。准確率已經達到了瓶頸,但是如果我們還想提高精度的話,還是要回到最原始的數據集里面。對分類器的結果最大的影響還是輸入的數據本身。接下來采用的方法 ...

Mon Aug 12 17:24:00 CST 2019 0 934
泰坦尼克號之災分析

的bad case和產生的原因』等等。 2、 對數據的認識太重要了! 數據中的特殊點/離群點的分 ...

Sat Aug 18 19:41:00 CST 2018 1 1185
泰坦尼克號幸存預測

本次項目主要圍繞Kaggle上的比賽題目: "給出泰坦尼克號上的乘客的信息, 預測乘客是否幸存" 進行數據分析 環境 win8, python3.7, jupyter notebook 目錄 1. 項目背景 2. 數據概覽 3. 特征分析 4. 特征工程 5. 構建模型 正文 ...

Thu Oct 25 01:37:00 CST 2018 2 5148
Kaggle泰坦尼克號案例

1、數據來源 (1)數據來源 來自kaggle的數據集Titanic:Titanic: Machine Learning from Disaster train文檔數據是用來分析和建模,包含有生存情況信息;test數據是用來最終預測其生存情況並生成結果文件。 2、分析流程 (1)不同變量 ...

Sat Jun 09 00:14:00 CST 2018 1 6547
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM