1 背景介紹

數據介紹
原始數據的下載地址：https://archive.ics.uci.edu/ml/machine-learning-databases/

數據描述
（1）699條樣本，共11列數據，第一列用語檢索的id，后9列分別是與腫瘤相關的醫學特征，最后一列表示腫瘤類型的數值。
（2）包含16個缺失值，用”?”標出。

2 案例分析

1.獲取數據
2.基本數據處理
2.1 缺失值處理
2.2 確定特征值,目標值
2.3 分割數據
3.特征工程(標准化)
4.機器學習(邏輯回歸)
5.模型評估

3 代碼實現

import pandas  as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.metrics import roc_auc_score
#ssl用來處理數據權限
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# 1.獲取數據
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
                  names=names)
data.head()

# 2.基本數據處理
# 2.1 缺失值處理(替換為NaN,再處理)
data = data.replace(to_replace="?", value=np.NaN)
data = data.dropna()
# 2.2 確定特征值,目標值
x = data.iloc[:, 1:10]
x.head()
y = data["Class"]
y.head()
# 2.3 分割數據
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

# 3.特征工程(標准化)
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 4.機器學習(邏輯回歸)
estimator = LogisticRegression()
estimator.fit(x_train, y_train)

# 5.模型評估
y_predict=estimator.predict(x_test)
print("預測值為：\n",y_predict)
ret=estimator.score(x_test,y_test)
print("准確率為：\n",ret)

6 精確率、召回率指標評價(該部分內容在下一節)

class_ret=classification_report(y_test,y_predict,labels=(2,4),target_names=("良性","惡性"))
print(class_ret)
# AOC指標計算
# 先將2，4轉換為0，1
y_test=np.where(y_test>3,1,0)
roc_auc_score(y_test,y_predict)
# print("AUC指標：",roc_auc_score(y_test,y_predict))

在很多分類場景當中我們不一定只關注預測的准確率，比如以這個癌症舉例子，我們並不關注預測的准確率，而是關注在所有的樣本當中，癌症患者有沒有被全部預測（檢測）出來。

注意：
- 如果數據中有缺失值，一定要對其進行處理
- 准確率並不是衡量分類正確的唯一標准

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習之良/惡性乳腺癌腫瘤預測機器學習之路：python線性回歸分類器 LogisticRegression SGDClassifier 進行良惡性腫瘤分類預測惡性腫瘤預測Python程序（邏輯回歸）【機器學習】基於邏輯回歸的癌症預測案例 SVM之乳腺癌檢測醫學圖像 | 使用深度學習實現乳腺癌分類（附python演練） sklearn-woe/iv-乳腺癌分類器實戰 sklearn_隨機森林random forest原理_乳腺癌分類器建模(推薦AAA) python感知機分類乳腺癌數據集機器學習算法（一）: 基於邏輯回歸的分類預測