包含三个花的品种(Iris setosa(山鸢尾),Iris virginica(北美鸢尾),Iris versicolor(变色鸢尾))
每个品种各50个样
每个样本四个特征参数(萼片长度和宽度、花瓣长度和宽度)
scikit-learn自带一些经典的数据集,如iris,digits,boston house prices,可以直接导入
导入数据方式:
from sklearn import datasets iris=datasets.load_iris()
导入的数据是一种字典形式,特征存储在iris.data中,标签存储在iris.target中
如利用该数据集画出散点图
程序如下:
from sklearn import datasets from matplotlib import pyplot as plt import numpy as np iris=datasets.load_iris() irisFeature=iris.data irisTarget=iris.target for i in range(len(irisTarget)): if irisTarget[i]==0: plt.scatter(irisFeature[i,0], irisFeature[i,1],c="r",marker="v") elif irisTarget[i]==1: plt.scatter(irisFeature[i,0], irisFeature[i,1], c="g",marker="8") else: plt.scatter(irisFeature[i,0], irisFeature[i,1], c="b",marker="o") plt.title("iris") plt.xlabel("ewidth") plt.ylabel("elength") plt.show()
运行效果:
横轴表示萼片宽度,纵轴为萼片长度,倒三角为山鸢尾,绿色圆为北美鸢尾,蓝色圆为变色鸢尾。