Titanic是kaggle上一個練手的比賽,kaggle平台提供一部分人的特征,以及是否遇難,目的是預測另一部分人是否遇難。目前抽工作之余,斷斷續續弄了點,成績為0.79426。在這個比賽過程中,接觸並了解了一些數據挖掘比賽的基本流程,現記錄一下。 1. 分析數據 ...
.關於年齡Age 除了利用平均數來填充,還可以利用正態分布得到一些隨機數來填充,首先得到已知年齡的平均數mean和方差std,然后生成 mean std, mean std 之間的隨機數,然后利用這些隨機值填充缺失的年齡。 .關於票價Fare 預處理:訓練集不缺,測試集缺失 個,用最高頻率值填充 特征工程:由於Fare分布非常不均,所以這里不用cut函數,而是qcut,因為它可以根據樣本分位數對 ...
2017-10-01 21:57 0 1592 推薦指數:
Titanic是kaggle上一個練手的比賽,kaggle平台提供一部分人的特征,以及是否遇難,目的是預測另一部分人是否遇難。目前抽工作之余,斷斷續續弄了點,成績為0.79426。在這個比賽過程中,接觸並了解了一些數據挖掘比賽的基本流程,現記錄一下。 1. 分析數據 ...
1,介紹 Titanic: Machine Learning from Disaster是kaggle比賽的入門訓練,具體介紹可以看鏈接,數據在官網上下載,但需要注冊登錄。訓練集在train.csv中,測試集在test.csv。這里對特征的處理主要是來自Sina的Titanic best ...
分享一篇kaggle入門級案例,泰坦尼克號幸存遇難分析。 參考文章: 技術世界,原文鏈接 http://www.jasongj.com/ml/classification/ 案例分析內容: 通過訓練集分析預測什么人可能生還,並對測試集中乘客做出預測判斷 ...
最近埋頭苦讀,啃機器學習的算法和編程,真是非(xiang)常(dang)歡(lan)樂(sou)呢~ 於是開始自我膨脹躍躍欲試。 嗯,那就從Kaggle的playground開始吧,找了個經典而又浪漫的愛情故事—泰坦尼克,應該能引起我的興趣好好挖掘吧~ "You jump! I jump ...
背景 Titanic: Machine Learning from Disaster - Kaggle 2 年前就被推薦照着這個比賽做一下,結果我打開這個頁面便蒙了,完全不知道該如何下手。 兩年后,再次打開這個頁面,看到清清楚楚的Titanic Tutorial - Kaggle,完全傻瓜式 ...
完整代碼見kaggle kernel 或 GitHub 比賽頁面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受歡迎的項目了,有7000多支隊伍參加,多年來誕生了無數關於該比賽的經驗分享。正是由於前人 ...
1. 引入所有需要的包 2. 讀入數據源 3. 分析數據 總結:所有的數據中一共包括12個變量,其中7個是數值變量,5個 ...
完整代碼: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始數據分析和數據處理 Titanic系列之數據變換 Titanic系列之派生屬性&維歸約 缺失值填充之后,就要對其他格式有問題的屬性進行 ...