前言 這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候,再看一遍電源《泰坦尼克號》,可能會給你一些啟發,比如婦女兒童先上船等。所以是否獲救其實並非隨機,而是基於一些背景有先后順序的。 1,背景介紹 1912年4月15日,載着1316號乘客和891名船員的豪華 ...
數據來源 數據來源 來自kaggle的數據集Titanic:Titanic: Machine Learning from Disaster train文檔數據是用來分析和建模,包含有生存情況信息 test數據是用來最終預測其生存情況並生成結果文件。 分析流程 不同變量跟生存情況的關系分析 查看缺失值並對缺失值進行處理 建立模型並預測 提交預測結果,查看網站排名。 數據分析 載入文件: 可以看到所 ...
2018-06-08 16:14 1 6547 推薦指數:
前言 這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候,再看一遍電源《泰坦尼克號》,可能會給你一些啟發,比如婦女兒童先上船等。所以是否獲救其實並非隨機,而是基於一些背景有先后順序的。 1,背景介紹 1912年4月15日,載着1316號乘客和891名船員的豪華 ...
Kaggle 是一個流行的數據科學競賽平台 一、機器學習的基本步驟 二、提出問題 什么樣的人更容易生存? 三、理解數據 3.1數據來源 https://www.kaggle.com/c/titanic 分為 訓練集:train.csv,891條數據 測試 ...
學習了機器學習這么久,第一次真正用機器學習中的方法解決一個實際問題,一步步探索,雖然最后結果不是很准確,僅僅達到了0.78647,但是真是收獲很多,為了防止以后我的記憶蟲上腦,我決定還是記錄下來好了。 ...
完整代碼見kaggle kernel 或 GitHub 比賽頁面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受歡迎的項目了,有7000多支隊伍參加,多年來誕生了無數關於該比賽的經驗分享。正是由於前人 ...
...
大神經驗: 1、 應用機器學習,千萬不要一上來就試圖做到完美,先擼一個baseline的model出來,再進行后續的分析步驟,一步步提高,所謂后續步驟可能包括『分析model現在的狀態(欠/過擬合 ...
本次項目主要圍繞Kaggle上的比賽題目: "給出泰坦尼克號上的乘客的信息, 預測乘客是否幸存" 進行數據分析 環境 win8, python3.7, jupyter notebook 目錄 1. 項目背景 2. 數據概覽 3. 特征分析 4. 特征工程 5. 構建模型 正文 ...
概述 1912年4月15日,泰坦尼克號在首次航行期間撞上冰山后沉沒,2224名乘客和機組人員中有1502人遇難。沉船導致大量傷亡的原因之一是沒有足夠的救生艇給乘客和船員。雖然幸存下來有一些運氣因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級。在本文中將對哪些人 ...