make_blobs方法:
sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3, cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)
make_blobs函數是為聚類產生數據集,產生一個數據集和相應的標簽
n_samples:表示數據樣本點個數,默認值100
n_features:是每個樣本的特征(或屬性)數,也表示數據的維度,默認值是2
centers:表示類別數(標簽的種類數),默認值3
cluster_std表示每個類別的方差,例如我們希望生成2類數據,其中一類比另一類具有更大的方差,可以將cluster_std設置為[1.0,3.0],浮點數或者浮點數序列,默認值1.0
center_box:中心確定之后的數據邊界,默認值(-10.0, 10.0)
shuffle :將數據進行洗亂,默認值是True
random_state:官網解釋是隨機生成器的種子,可以固定生成的數據,給定數之后,每次生成的數據集就是固定的。若不給定值,則由於隨機性將導致每次運行程序所獲得的的結果可能有所不同。在使用數據生成器練習機器學習算法練習或python練習時建議給定數值。
例如:在jupyter notebook中可以簡單練習一下。