此文發表在簡書,復制過來,在下方放上鏈接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克號生存預測 1.背景與挖掘目標 “泰坦尼克號”的沉沒是歷史上最臭名昭著的海難之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞后沉沒,2224名乘客 ...
最近一直斷斷續續的做這個泰坦尼克生存預測模型的練習,這個kaggle的競賽題,網上有很多人都分享過,而且都很成熟,也有些寫的非常詳細,我主要是在牛人們的基礎上,按照數據挖掘流程梳理思路,然后通過練習每一步來熟悉應用python進行數據挖掘的方式。 數據挖掘的一般過程是:數據預覽 gt 數據預處理 缺失值 離散值等 gt 變量轉換 構造新的衍生變量 gt 數據探索 提取特征 gt 訓練 gt 調優 ...
2018-05-25 00:03 0 3293 推薦指數:
此文發表在簡書,復制過來,在下方放上鏈接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克號生存預測 1.背景與挖掘目標 “泰坦尼克號”的沉沒是歷史上最臭名昭著的海難之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞后沉沒,2224名乘客 ...
,索引改為乘客的ID,便於觀察。 其中,chunksize是在對數據進行逐塊提取時使用的參數。之 ...
也不知道對不對,就憑着自己的思路寫了一個 數據集:https://www.kaggle.com/c/titanic/data 效果一般吧,不過至少出來了,hiahiahia ...
Kaggle 是一個流行的數據科學競賽平台 一、機器學習的基本步驟 二、提出問題 什么樣的人更容易生存? 三、理解數據 3.1數據來源 https://www.kaggle.com/c/titanic 分為 訓練集:train.csv,891條數據 測試 ...
假期閑着無聊,做了一下Kaggle練手的項目--預測泰坦尼克號乘客的存活情況。對於一些函數和算法,剛開始也是懵懵懂懂的,但通過自己查資料,還是明白了許多。然后就是自己寫的時候還看了下別人的做法,特別是國外的文章,寫得很詳細,邏輯特別清晰,還把不同算法的結果給你列出來,最后選擇了最優算法。好佩服 ...
。 2.2 泰坦尼克號 本次問題頁面 請到Data頁面下載數據集 數據集的各屬性在Data頁面 ...
概述 1912年4月15日,泰坦尼克號在首次航行期間撞上冰山后沉沒,2224名乘客和機組人員中有1502人遇難。沉船導致大量傷亡的原因之一是沒有足夠的救生艇給乘客和船員。雖然幸存下來有一些運氣因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級。在本文中將對哪些人 ...