一.材料准備 https://www.kaggle.com/c/titanic-gettingStarted/ 二.提出問題 生存率和哪些因素有關(性別,年齡,是否有伴侶,票價,艙位等級,包間,出發地點) 1.乘客的年齡和票價的分布 2.樣本生存的幾率是多少 3.乘客 ...
. 引入所有需要的包 . 讀入數據源 . 分析數據 總結:所有的數據中一共包括 個變量,其中 個是數值變量, 個是屬性變量 PassengerId 忽略 :這是乘客的編號,顯然對乘客是否幸存完全沒有任何作用,僅做區分作用,所以我們就不考慮它了。 Survived 目標值 :乘客最后的生存情況,這個是我們預測的目標變量。不過從平均數可以看出,最后存活的概率大概是 。 Pclass 考慮 :社會經濟 ...
2018-03-01 13:02 0 1638 推薦指數:
一.材料准備 https://www.kaggle.com/c/titanic-gettingStarted/ 二.提出問題 生存率和哪些因素有關(性別,年齡,是否有伴侶,票價,艙位等級,包間,出發地點) 1.乘客的年齡和票價的分布 2.樣本生存的幾率是多少 3.乘客 ...
Titanic是kaggle上的一道just for fun的題,沒有獎金,但是數據整潔,拿來練手最好不過啦。 這道題給的數據是泰坦尼克號上的乘客的信息,預測乘客是否幸存。這是個二元分類的機器學習問題,但是由於數據樣本相對較少,在當時慌亂的情況下幸存者有一定的隨機性,還是有一定挑戰的。https ...
一、前言 雖然一直算IT男,但是基本沒有接觸過最前沿的IT知識,一直在做生產方面的IT,突發奇想,開始學習算法,學習算法有半年多了,從最初的Python,到線性回歸、邏輯回歸、SVM,聚類,NL ...
分享一篇kaggle入門級案例,泰坦尼克號幸存遇難分析。 參考文章: 技術世界,原文鏈接 http://www.jasongj.com/ml/classification/ 案例分析內容: 通過訓練集分析預測什么人可能生還,並對測試集中乘客做出預測判斷 ...
可能生存作出分析,特別是運用Python和機器學習的相關模型工具來預測哪些乘客幸免於難,最后提交結果。從k ...
數據分析流程(基於excel) 業務分析 數據采集 數據處理 數據模型 數據展現 結果分析 頁簽:願數據-》 數據清理和轉化- 》緯度(特征)選擇,刪掉不要的-》按照維度進行統計人數-》 數據可視化-〉 excel 篩選(縮小確定需要的范圍) 找到標簽 c t r l加 ...
數據為kaggle社區發布的數據分析從業者問卷調查分析報告,其中涵蓋了關於該行業不同維度的問題及調查結果。本文的目的為提取有用的數據,進行描述性展示。幫助新從業的人員更全方位地了解這個行業。 參考學習視頻:http://www.tianshansoft.com/ 數據集:https ...
Kaggle-數據分析競賽:House Price Prediction官網鏈接 參賽情況 參賽時間 2020-05 最終結果(均方根誤差RMSE) 0.115 ...