此文發表在簡書,復制過來,在下方放上鏈接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克號生存預測 1.背景與挖掘目標 “泰坦尼克號”的沉沒是歷史上最臭名昭著的海難之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞后沉沒,2224名乘客 ...
大神經驗: 應用機器學習,千萬不要一上來就試圖做到完美,先擼一個baseline的model出來,再進行后續的分析步驟,一步步提高,所謂后續步驟可能包括 分析model現在的狀態 欠 過擬合 ,分析我們使用的feature的作用大小,進行feature selection,以及我們模型下的bad case和產生的原因 等等。 對數據的認識太重要了 數據中的特殊點 離群點的分析和處理太重要了 特征工 ...
2018-08-18 11:41 1 1185 推薦指數:
此文發表在簡書,復制過來,在下方放上鏈接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克號生存預測 1.背景與挖掘目標 “泰坦尼克號”的沉沒是歷史上最臭名昭著的海難之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞后沉沒,2224名乘客 ...
...
本次項目主要圍繞Kaggle上的比賽題目: "給出泰坦尼克號上的乘客的信息, 預測乘客是否幸存" 進行數據分析 環境 win8, python3.7, jupyter notebook 目錄 1. 項目背景 2. 數據概覽 3. 特征分析 4. 特征工程 5. 構建模型 正文 ...
1、數據來源 (1)數據來源 來自kaggle的數據集Titanic:Titanic: Machine Learning from Disaster train文檔數據是用來分析和建模,包含有生存情況信息;test數據是用來最終預測其生存情況並生成結果文件。 2、分析流程 (1)不同變量 ...
概述 1912年4月15日,泰坦尼克號在首次航行期間撞上冰山后沉沒,2224名乘客和機組人員中有1502人遇難。沉船導致大量傷亡的原因之一是沒有足夠的救生艇給乘客和船員。雖然幸存下來有一些運氣因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級。在本文中將對哪些人 ...
泰坦尼克號獲救率數據分析報告,用數據揭露真相。 一,船上乘客生存率分析報告 泰坦尼克號生存率僅有38%的,可見此次事件救援不力,救生艇嚴重不足,且泰坦尼克號號撞得是冰山,海水冷,沒有救生艇,在水里凍死的乘客不少。 二,哪個年齡段存活率最高(青年人(18歲以下),中年人(18到50歲 ...
三種開發模式 使用TensorFlow 2.0完成機器學習一般有三種方式: 使用底層邏輯 這種方式使用Python函數自定義學習模型,把數學公式轉化為可執行的程序邏輯。接着在訓練循環中, ...
Kaggle 是一個流行的數據科學競賽平台 一、機器學習的基本步驟 二、提出問題 什么樣的人更容易生存? 三、理解數據 3.1數據來源 https://www.k ...