一、make_blobs簡介
scikit中的make_blobs方法常被用來生成聚類算法的測試數據,直觀地說,make_blobs會根據用戶指定的特征數量、中心點數量、范圍等來生成幾類數據,這些數據可用於測試聚類算法的效果。
二、函數原型
sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)
其中:
n_samples是待生成的樣本的總數。
n_features是每個樣本的特征數,即維度
centers表示類別數。
cluster_std表示每個類別的方差,例如我們希望生成2類數據,其中一類比另一類具有更大的方差,可以將cluster_std設置為[1.0,3.0]。
三、實例
from sklearn.datasets import make_blobs X, y = make_blobs(n_samples=150, n_features=2, centers=3, cluster_std=0.5, shuffle=True, random_state=0) import matplotlib.pyplot as plt plt.scatter(X[:, 0], X[:, 1], c='red', marker='o', s=50) plt.grid() plt.show()
其中plt.scatter()中的s參數表示marker的大小