使用Scikit Learn的分類器探索Iris數據集

本文轉載自查看原文 2020-08-05 13:33 526

作者|Dehao Zhang
編譯|VK
來源|Towards Data Science

暫時，想象一下你不是一個花卉專家（如果你是專家，那對你很好！）。你能區分三種不同的鳶尾屬植物嗎？剛毛鳶尾屬，花色鳶尾屬和維吉尼亞鳶尾屬（setosa, versicolor, virginica）？

我知道我不能…

但是，如果我們有一個包含這些物種實例的數據集，以及它們的萼片和花瓣的測量結果呢？

換言之，我們能從這個數據集中學到什么來幫助我們區分這三個物種嗎？

數據集

在這篇博文中，我將探索UCI機器學習庫中的Iris數據集。它摘自其網站，據說這可能是模式識別文獻中最著名的數據庫。此外，Jason Brownlee，機器學習社區創建者，他稱該數據集為機器學習的“Hello World”。

我將把這個數據集推薦給那些對數據科學感興趣並渴望構建第一個ML模型的人。它的一些優良特性見下文：

150個具有4個屬性的實例（相同的單位，全部為數字）
均衡的階級分布
無缺失數據

如你所見，這些特性有助於將你在數據准備過程中花費的時間減至最少，這樣你就可以專注於構建你的第一個ML模型。

並不是說准備階段不重要。相反，這個過程是如此的重要，以至於對於一些初學者來說，這可能是非常耗時的，而且他們在開始模型開發之前可能會把自己壓得喘不過氣來。

例如，來自Kaggle的流行數據集House Prices:Advanced returnation Techniques有大約80個特征，其中超過20%包含某種程度的缺失數據。在這種情況下，你可能需要花費一些時間來理解屬性並填充缺失的值。

目標

在研究了這個數據集之后，我們希望能夠回答兩個問題，這在分類問題中非常典型：

預測-給定新的數據點，模型預測其類（物種）的准確度如何？
推斷-哪些預測因素可以有效地幫助預測？

分類

分類是一類有監督的機器學習問題，其中目標（響應）變量是離散的。給定包含已知標簽的訓練數據，分類器從輸入變量（X）到輸出變量（Y）近似一個映射函數（f）。

現在是時候寫一些代碼了！請參閱我的Github頁面以獲取完整的Python代碼（在Jupyter Notebook中編寫）。

鏈接：https://github.com/terryz1/explore-iris

導入庫並加載數據集

首先，我們需要導入庫：pandas（加載數據集）、numpy（矩陣操作）、matplotlib和seaborn（可視化）以及sklearn（構建分類器）。在導入它們之前，請確保它們已經安裝（請參閱此處的安裝程序包指南）。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from pandas.plotting import parallel_coordinates
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn import metrics
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression

要加載數據集（也可以在我的Github頁面中找到），我們可以使用pandas的read_csv函數（我的代碼還包括通過url加載的選項）。

data = pd.read_csv('data.csv')

加載數據后，我們可以通過head查看前幾行：

data.head(5)

注：所有四個測量單位均為厘米。

數值摘要

首先，讓我們通過“describe”來查看每個屬性的數值摘要：

data.describe()

我們還可以使用groupby和size檢查類分布：

data.groupby('species').size()

我們可以看到每個類都有相同數量的實例。

訓練集測試集拆分

現在，我們可以將數據集分成訓練集和測試集。通常，我們還應該有一個驗證集，用來評估每個分類器的性能，進行微調，並確定最佳模型。測試集主要用於報告。然而，由於這個數據集的規模很小，我們可以通過使用測試集來滿足驗證集的目的來簡化它。

此外，我還使用了分層保持方法來估計模型精度。我會在以后的博客中討論減少偏差的方法。

train, test = train_test_split(data, test_size = 0.4, stratify = data[‘species’], random_state = 42)

注意：我設置了40%的數據作為測試集，以確保有足夠的數據點來測試模型。

探索性數據分析

在我們分割數據集之后，我們可以繼續探索訓練數據。matplotlib和seaborn都有很好的繪圖工具，我們可以用來可視化。

讓我們首先創建一些單變量圖。為每個特征創建直方圖：

n_bins = 10
fig, axs = plt.subplots(2, 2)
axs[0,0].hist(train['sepal_length'], bins = n_bins);
axs[0,0].set_title('Sepal Length');
axs[0,1].hist(train['sepal_width'], bins = n_bins);
axs[0,1].set_title('Sepal Width');
axs[1,0].hist(train['petal_length'], bins = n_bins);
axs[1,0].set_title('Petal Length');
axs[1,1].hist(train['petal_width'], bins = n_bins);
axs[1,1].set_title('Petal Width');

# 添加一些間距
fig.tight_layout(pad=1.0);

請注意，對於花瓣長度和花瓣寬度，似乎有一組數據點的值比其他數據點小，這表明此數據中可能存在不同的組。

接下來，讓我們嘗試一些箱線圖：

fig, axs = plt.subplots(2, 2)
fn = ["sepal_length", "sepal_width", "petal_length", "petal_width"]
cn = ['setosa', 'versicolor', 'virginica']
sns.boxplot(x = 'species', y = 'sepal_length', data = train, order = cn, ax = axs[0,0]);
sns.boxplot(x = 'species', y = 'sepal_width', data = train, order = cn, ax = axs[0,1]);
sns.boxplot(x = 'species', y = 'petal_length', data = train, order = cn, ax = axs[1,0]);
sns.boxplot(x = 'species', y = 'petal_width', data = train,  order = cn, ax = axs[1,1]);
# 添加一些間距
fig.tight_layout(pad=1.0);

底部的兩個圖表明我們前面看到的那組數據點是setosas。它們的花瓣尺寸比其他兩個物種更小，分布也更少。與其他兩個物種相比，versicolor的平均值比virginica 低。

小提琴圖是另一種可視化方式，它結合了直方圖和方框圖的優點：

sns.violinplot(x="species", y="petal_length", data=train, size=5, order = cn, palette = 'colorblind');

現在我們可以使用seaborn的pairplot函數繪制所有成對屬性的散點圖：

sns.pairplot(train, hue="species", height = 2, palette = 'colorblind');

請注意，有些變量似乎高度相關，例如花瓣長度和花瓣寬度。另外，花瓣的測量比萼片的分離更好。

接下來，我們制作一個相關矩陣來定量檢查變量之間的關系：

corrmat = train.corr()
sns.heatmap(corrmat, annot = True, square = True);

主要的結論是花瓣的大小有高度的正相關，而萼片的測量是不相關的。注意花瓣特征與萼片長度也有較高的相關性，但與萼片寬度無關。

另一個很酷的可視化工具是 parallel coordinate plot，它將每一行表示為一條直線。

parallel_coordinates(train, "species", color = ['blue', 'red', 'green']);

正如我們之前所見，花瓣的測量比萼片的能更好地區分物種。

構建分類器

現在我們准備建立一些分類器

為了讓我們的生活更輕松，讓我們把類標簽和特征分開：

X_train = train[['sepal_length','sepal_width','petal_length','petal_width']]
y_train = train.species
X_test = test[['sepal_length','sepal_width','petal_length','petal_width']]
y_test = test.species

決策樹

我想到的第一個分類器是一個稱為決策樹。原因是我們可以看到分類規則，而且很容易解釋。

讓我們使用sklearn（文檔）構建一個，最大深度為3，我們可以在測試數據上檢查它的准確性：

mod_dt = DecisionTreeClassifier(max_depth = 3, random_state = 1)
mod_dt.fit(X_train,y_train)
prediction=mod_dt.predict(X_test)
print(‘The accuracy of the Decision Tree is’,”{:.3f}”.format(metrics.accuracy_score(prediction,y_test)))

--------------------------------------------------------------------
The accuracy of the Decision Tree is 0.983.

決策樹正確預測了98.3%的測試數據。該模型的一個優點是，你可以通過每個因子的feature-importances屬性來查看其特征重要性：

mod_dt.feature_importances_

--------------------------------------------------------------------
array([0.        , 0.        , 0.42430866, 0.57569134])

從輸出結果和基於四個特征的索引，我們知道前兩個特征（萼片度量）並不重要，只有花瓣特征被用來構建這棵樹。

決策樹的另一個優點是我們可以通過plot_tree可視化分類規則：

plt.figure(figsize = (10,8))
plot_tree(mod_dt, feature_names = fn, class_names = cn, filled = True);

此樹中的分類規則（對於每個拆分，左->是，右->否）

除了每個規則（例如，第一個標准是花瓣寬度≤0.7），我們還可以看到每個拆分、指定類別等的基尼指數。請注意，除了底部的兩個“淺紫色”框外，所有終端節點都是純的。對於這兩類情況，表示沒有信心。

為了證明對新數據點進行分類是多么容易，假設一個新實例的花瓣長度為4.5cm，花瓣寬度為1.5cm，那么我們可以根據規則預測它是versicolor。

由於只使用花瓣特征，因此我們可以可視化決策邊界並以二維形式繪制測試數據：

在60個數據點中，59個被正確分類。另一種顯示預測結果的方法是通過混淆矩陣：

disp = metrics.plot_confusion_matrix(mod_dt, X_test, y_test,
                                 display_labels=cn,
                                 cmap=plt.cm.Blues,
                                 normalize=None)
disp.ax_.set_title('Decision Tree Confusion matrix, without normalization');

通過這個矩陣，我們看到有一種花色，我們預測是virginica。

構建一棵樹的一個缺點是它的不穩定性，這可以通過諸如隨機森林、boosting等集成技術來改善。現在，讓我們繼續下一個模型。

高斯朴素貝葉斯分類器

最流行的分類模型之一是朴素貝葉斯。它包含了“Naive”一詞，因為它有一個關鍵的類條件獨立性假設，這意味着給定的類，每個特征的值都被假定獨立於任何其他特征的值（請參閱此處）。

我們知道，這里顯然不是這樣，花瓣特征之間的高度相關性證明了這一點。讓我們用這個模型來檢查測試精度，看看這個假設是否可靠：

The accuracy of the Guassian Naive Bayes Classifier on test data is 0.933

如果我們只使用花瓣特征，結果如何：

The accuracy of the Guassian Naive Bayes Classifier with 2 predictors on test data is 0.950

有趣的是，僅使用兩個特征會導致更正確的分類點，這表明在使用所有特征時可能會過度擬合。看起來我們朴素貝葉斯分類器做得不錯。

線性判別分析

如果我們使用多元高斯分布來計算類條件密度，而不是使用一元高斯分布的乘積（在朴素貝葉斯中使用），我們將得到一個LDA模型。LDA的關鍵假設是類之間的協方差相等。我們可以使用所有特征和僅花瓣特征檢查測試精度：

The accuracy of the LDA Classifier on test data is 0.983
The accuracy of the LDA Classifier with two predictors on test data is 0.933

使用所有特征可以提高我們的LDA模型的測試精度。

為了在二維可視化決策邊界，我們可以僅使用花瓣的LDA模型，並繪制測試數據：

四個測試點被錯誤分類-三個virginica和一個versicolor。

現在假設我們要用這個模型對新的數據點進行分類，我們只需在圖上畫出點，然后根據它所屬的顏色區域進行預測。

二次判別分析

LDA和QDA的區別在於QDA不假設類間的協方差相等，它被稱為“二次型”，因為決策邊界是一個二次函數。

The accuracy of the QDA Classifier is 0.983
The accuracy of the QDA Classifier with two predictors is 0.967

在所有特征的情況下，它與LDA具有相同的精度，並且僅使用花瓣時，它的性能稍好一些。

類似地，讓我們繪制QDA（只有花瓣的模型）的決策邊界：

KNN分類器

現在，讓我們換個角度，看看一個名為KNN的非參數模型。它是一個十分流行的模型，因為它相對簡單和易於實現。然而，我們需要意識到當特征的數量變大時我們會受到維度詛咒。

讓我們用K的不同選擇繪制測試精度：

我們可以看到，當K為3或在7到10之間時，精確度最高(約為0.965)。與以前的模型相比，分類新的數據點不那么直接，因為我們需要在四維空間中觀察它的K個最近的鄰居。

其他模型

我還研究了其他模型，如logistic回歸、支持向量機分類器等。

注意SVC（帶線性內核）的測試精度達到了100%！

我們現在應該很有信心，因為我們的大多數模型的准確率都超過了95%。

下一步

以下是一些未來研究的想法：

對這些模型進行交叉驗證，並比較它們之間的平均精確度。
找到其他數據源，包括其他鳶尾屬物種及其萼片/花瓣測量值（如果可能，也包括其他屬性），並檢查新的分類精度。
制作一個交互式的web應用程序，根據用戶輸入的測量值來預測物種。

結尾

我們研究了Iris數據集，然后使用sklearn構建了一些流行的分類器。我們發現花瓣的測量值比萼片的測量值更有助於分類實例。此外，大多數模型的測試精度都在95%以上。

參考文獻

Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). An introduction to statistical learning : with applications in R. New York :Springer.

原文鏈接：https://towardsdatascience.com/exploring-classifiers-with-python-scikit-learn-iris-dataset-2bcb490d2e1b

歡迎關注磐創AI博客站：
http://panchuang.net/

sklearn機器學習中文官方文檔：
http://sklearn123.com/

歡迎關注磐創博客資源匯總站：
http://docs.panchuang.net/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scikit_learn分類器詳解 SciKit-Learn 加載數據集使用KNN對iris數據集進行分類——python Python實現鳶尾花數據集分類問題——使用LogisticRegression分類器使用KNN分類器對MNIST數據集進行分類 sklearn：隨機森林_分類器_紅酒數據集朴素貝葉斯分類器（MNIST數據集） python中使用scikit-learn和pandas決策樹進行iris鳶尾花數據分類建模和交叉驗證 scikit-learn使用fetch_mldata無法下載MNIST數據集的問題 Iris數據集