sklearn.datasets官網:http://scikit-learn.org/stable/datasets/
sklearn.datasets 模塊主要提供一些導入、在線下載及本地生成數據集的方法,可以通過 dir 或 help 命令查看,會發現主要有三種形式:load_<dataset_name>、fetch_<dataset_name> 及 make_<dataset_name> 的方法
sklearn 的數據集有好多個種
- 自帶的小數據集(packaged dataset):sklearn.datasets.load_<name>
- 可在線下載的數據集(Downloaded Dataset):sklearn.datasets.fetch_<name>
- 計算機生成的數據集(Generated Dataset):sklearn.datasets.make_<name>
- svmlight/libsvm格式的數據集:sklearn.datasets.load_svmlight_file(...)
- 從買了data.org在線下載獲取的數據集:sklearn.datasets.fetch_mldata(...)
1. dataset.load_<dataset_name>:sklearn包自帶的小數據集
數據集文件在 sklearn 安裝目錄下 datasets\data 文件下
2. datasets.fetch_<dataset_name> :比較大的數據集,主要用於測試解決實際問題,支持在線下載
下載下來的數據,默認保存在~/scikit_learn_data文件夾下,可以通過設置環境變量SCIKIT_LEARN_DATA修改路徑,datasets.get_data_home()獲取下載路徑
3. datasets.make_*?:構造數據集
下面以make_regression()函數為例,首先看看函數語法:
make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
參數說明:
- n_samples:樣本數
- n_features:特征數(自變量個數)
- n_informative:相關特征(相關自變量個數)即參與了建模型的特征數
- n_targets:因變量個數
- bias:偏差(截距)
- coef:是否輸出coef標識
上述輸出結果:元組中的三個數組分別對應輸入數據X,輸出數據y,coef對應數組。