1.實驗背景 本次實驗是Kaggle上的一個入門比賽——Titanic: Machine Learning from Disaster。比賽選擇了泰坦尼克號海難作為背景,並提供了樣本數據及測試數據,要求我們根據樣本數據內容建立一個預測模型,對於測試數據中每個人是否獲救做個預測。樣本數據包括891 ...
.代碼 .解釋 第一個函數titanic 根據游客數據 .篩選有效數據 .缺失值處理 .轉換為字典 .划分數據集 .轉換為特征值 .訓練模型 .模型評估 .預測 形成模型並評估,可以進行簡單的預測分類 第二個函數titanic forest 隨機森林找到最優方案 模型,確定最優參數等等 ...
2020-04-09 10:50 0 632 推薦指數:
1.實驗背景 本次實驗是Kaggle上的一個入門比賽——Titanic: Machine Learning from Disaster。比賽選擇了泰坦尼克號海難作為背景,並提供了樣本數據及測試數據,要求我們根據樣本數據內容建立一個預測模型,對於測試數據中每個人是否獲救做個預測。樣本數據包括891 ...
使用python3 學習了決策樹分類器的api 涉及到 特征的提取,數據類型保留,分類類型抽取出來新的類型 需要網上下載數據集,我把他們下載到了本地, 可以到我的git下載代碼和數據集: https://github.com/linyi0604/MachineLearning ...
sklearn實戰-乳腺癌細胞數據挖掘(博主親自錄制視頻) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
一、任務基礎 泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日,在她的處女航中,泰坦尼克號在與冰山相撞后沉沒,在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會,並為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇 ...
數據集下載地址: https://github.com/fayduan/Kaggle_Titanic/blob/master/train.csv 視頻地址: http:// ...
四、特征重要性衡量 通過上面可以發現准確率有小幅提升,但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了,使用的特征似乎也已經使用完了。准確率已經達到了瓶頸,但是如果我們還想提高精度的話,還是要回到最原始的數據集里面。對分類器的結果最大的影響還是輸入的數據本身。接下來采用的方法 ...
此文發表在簡書,復制過來,在下方放上鏈接。 https://www.jianshu.com/p/a09b4dc904c9 泰坦尼克號生存預測 1.背景與挖掘目標 “泰坦尼克號”的沉沒是歷史上最臭名昭著的海難之一。1912年4月15日,泰坦尼克號在處女航中與冰山相撞后沉沒,2224名乘客 ...
Kaggle 是一個流行的數據科學競賽平台 一、機器學習的基本步驟 二、提出問題 什么樣的人更容易生存? 三、理解數據 3.1數據來源 https://www.kaggle.com/c/titanic 分為 訓練集:train.csv,891條數據 測試 ...