包含三個花的品種(Iris setosa(山鳶尾),Iris virginica(北美鳶尾),Iris versicolor(變色鳶尾))
每個品種各50個樣
每個樣本四個特征參數(萼片長度和寬度、花瓣長度和寬度)
scikit-learn自帶一些經典的數據集,如iris,digits,boston house prices,可以直接導入
導入數據方式:
from sklearn import datasets iris=datasets.load_iris()
導入的數據是一種字典形式,特征存儲在iris.data中,標簽存儲在iris.target中
如利用該數據集畫出散點圖
程序如下:
from sklearn import datasets from matplotlib import pyplot as plt import numpy as np iris=datasets.load_iris() irisFeature=iris.data irisTarget=iris.target for i in range(len(irisTarget)): if irisTarget[i]==0: plt.scatter(irisFeature[i,0], irisFeature[i,1],c="r",marker="v") elif irisTarget[i]==1: plt.scatter(irisFeature[i,0], irisFeature[i,1], c="g",marker="8") else: plt.scatter(irisFeature[i,0], irisFeature[i,1], c="b",marker="o") plt.title("iris") plt.xlabel("ewidth") plt.ylabel("elength") plt.show()
運行效果:
橫軸表示萼片寬度,縱軸為萼片長度,倒三角為山鳶尾,綠色圓為北美鳶尾,藍色圓為變色鳶尾。