原文鏈接:http://tecdat.cn/?p=23848
原文出處:拓端數據部落公眾號
數據簡介
該數據集最初來自國家糖尿病/消化/腎臟疾病研究所。數據集的目標是基於數據集中包含的某些診斷測量來診斷性的預測 患者是否患有糖尿病。從較大的數據庫中選擇這些實例有幾個約束條件。尤其是,這里的所有患者都是印第安至少21歲的女性。數據集由多個醫學預測變量和一個目標變量組成Outcome。預測變量包括患者的懷孕次數、BMI、胰島素水平、年齡等。(查看文末了解獲取方式)
數據詳情
數據格式
csv
字段
懷孕次數
葡萄糖
血壓 (mm Hg)
皮層厚度 (mm)
胰島素 2小時血清胰島素(mu U / ml
體重指數 (體重/身高)^2
糖尿病譜系功能
年齡 (歲)
類標變量 (0或1)
大小
23.3kb
樣本量
768
數據瀏覽
以前5行數據為例,我們來預覽一下:
變量探索:
數據獲取
在下面公眾號后台回復“糖尿病患者數據”,可獲取完整數據。
點擊標題查閱相關文章
左右滑動查看更多
01
02
03
04
點擊標題查閱往期內容
Python決策樹、隨機森林、朴素貝葉斯、KNN(K-最近鄰居)分類分析銀行拉新活動挖掘潛在貸款客戶
R語言邏輯回歸(Logistic Regression)、回歸決策樹、隨機森林信用卡違約分析信貸數據集
R語言對用電負荷時間序列數據進行K-medoids聚類建模和GAM回歸
R語言貝葉斯MCMC:GLM邏輯回歸、Rstan線性回歸、Metropolis Hastings與Gibbs采樣算法實例
R語言邏輯回歸、Naive Bayes貝葉斯、決策樹、隨機森林算法預測心臟病
R語言用Rcpp加速Metropolis-Hastings抽樣估計貝葉斯邏輯回歸模型的參數
R語言邏輯回歸logistic模型分析泰坦尼克titanic數據集預測生還情況
R語言用lme4多層次(混合效應)廣義線性模型(GLM),邏輯回歸分析教育留級調查數據
R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析
R語言基於Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者
R語言邏輯回歸(Logistic回歸)模型分類預測病人冠心病風險
欲獲取全文文件,請點擊左下角“閱讀原文”。