1 import numpy as np 2 from sklearn.datasets import make_moons 3 import matplotlib.pyplot as plt 4 # 手动生成一个随机的平面点分布,并画出来 5 np.random.seed(0) 6 X, y = make_moons(200, noise=0.20) 7 plt.scatter(X[:,0], X[:,1], s=40, c=y, cmap=plt.cm.Spectral) 8 plt.show()
解释一下make_moons 是生成数据用的
sklearn.datasets.make_moons(n_samples=100, shuffle=True, noise=None, random_state=None)
主要参数作用如下:n_numbers
:生成样本数量shuffle
:是否打乱,类似于将数据集random
一下noise
:默认是false
,数据集是否加入高斯噪声random_state
:生成随机种子,给定一个int
型数据,能够保证每次生成数据相同。
定义一个边界决策函数
1 # 咱们先顶一个一个函数来画决策边界 2 def plot_decision_boundary(pred_func): 3 4 # 设定最大最小值,附加一点点边缘填充 5 x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5 6 y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5 7 h = 0.01 8 9 xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) 10 11 # 用预测函数预测一下 12 Z = pred_func(np.c_[xx.ravel(), yy.ravel()]) 13 Z = Z.reshape(xx.shape) 14 15 # 然后画出图 16 plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral) 17 plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)
meshgrid函数
通常使用在数据的矢量化上。
它适用于生成网格型数据,可以接受两个一维数组生成两个二维矩阵,对应两个数组中所有的(x,y)对。
由上面的示例展示可以看出,meshgrid的作用是:
根据传入的两个一维数组参数生成两个数组元素的列表。
如果第一个参数是xarray,维度是xdimesion,
第二个参数是yarray,维度是ydimesion。
那么生成的第一个二维数组是以xarray为行,共ydimesion行的向量;
而第二个二维数组是以yarray的转置为列,共xdimesion列的向量。
然后使用它
1 from sklearn.linear_model import LogisticRegressionCV 2 #咱们先来瞄一眼逻辑斯特回归对于它的分类效果 3 clf = LogisticRegressionCV() 4 clf.fit(X, y) 5 6 # 画一下决策边界 7 plot_decision_boundary(lambda x: clf.predict(x)) 8 plt.title("Logistic Regression") 9 plt.show()
clf.fit(X, y):用训练数据来拟合模型
clf.predict(x) 用训练好的分类器去预测x数据的标签[1](返回的值是一个概率)
1,rand 生成均匀分布的伪随机数。分布在(0~1)之间
主要语法:rand(m,n)生成m行n列的均匀分布的伪随机数
rand(m,n,'double')生成指定精度的均匀分布的伪随机数,参数还可以
是'single'
rand(RandStream,m,n)利用指定的RandStream(我理解为随机种子)生成伪
随机数
2,randn 生成标准正态分布的伪随机数(均值为0,方差为1)
主要语法:和上面一样