一、自帶的小數據集(packageddataset):sklearn.datasets.load_<name>
1) 鳶尾花數據集:load_iris():用於分類任務的數據集
2) 手寫數字數據集:load_digits():用於分類任務或者降維任務的數據集
3) 乳腺癌數據集load-barest-cancer():簡單經典的用於二分類任務的數據集
4) 糖尿病數據集:load-diabetes():經典的用於回歸認為的數據集,值得注意的是,這10個特征中的每個特征都已經被處理成0均值,方差歸一化的特征值。
5) 波士頓房價數據集:load-boston():經典的用於回歸任務的數據集
6) 體能訓練數據集:load-linnerud():經典的用於多變量回歸任務的數據集。
二、可在線下載的數據集:sklearn.datasets.fetch_<name>,一般規模較大(DownloadedDataset)。
fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0,download_if_missing=True):Olivetti 臉部圖片數據集。
三、計算機生成的數據集(GeneratedDataset):sklearn.datasets.make_<name>
1) make_blobs:多類單標簽數據集,為每個類分配一個或多個正太分布的點集
2) make_classification:多類單標簽數據集,為每個類分配一個或多個正太分布的點集,提供了為數據添加噪聲的方式,包括維度相關性,無效特征以及冗余特征等
3) make_gaussian-quantiles:將一個單高斯分布的點集划分為兩個數量均等的點集,作為兩類
4) make_hastie-10-2:產生一個相似的二元分類數據集,有10個維度
5) make_circle和make_moom產生二維二元分類數據集來測試某些算法的性能,可以為數據集添加噪聲,可以為二元分類器產生一些球形判決界面的數據。
四、svmlight/libsvm格式的數據集:sklearn.datasets.load_svmlight_file(...)
from sklearn.datasets importload_svmlight_file
x_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多個數據的時候,可以用逗號隔開
svmlight/libsvm的每一行樣本的存放格式:
<label><feature-id>:<feature-value> <feature-id>:<feature-value>....
五、data.org在線下載獲取的數據集:sklearn.datasets.fetch_mldata(...)
from sklearn.datasets.mldata import fetch_mldata
import tempfile
test_data_home = tempfile.mkdtemp()
iris = fetch_mldata('iris', data_home=test_data_home)
print(iris);print(iris.target.shape);print(iris.data.shape)
原文鏈接:https://blog.csdn.net/weixin_42039090/java/article/details/80614918