sklearn dataset 模塊學習

本文轉載自查看原文 2018-01-02 16:58 2794 機器學習

sklearn.datasets官網：http://scikit-learn.org/stable/datasets/

sklearn.datasets 模塊主要提供一些導入、在線下載及本地生成數據集的方法，可以通過 dir 或 help 命令查看，會發現主要有三種形式：load_<dataset_name>、fetch_<dataset_name> 及 make_<dataset_name> 的方法

sklearn 的數據集有好多個種

自帶的小數據集（packaged dataset）：sklearn.datasets.load_<name>
可在線下載的數據集（Downloaded Dataset）：sklearn.datasets.fetch_<name>
計算機生成的數據集（Generated Dataset）：sklearn.datasets.make_<name>
svmlight/libsvm格式的數據集：sklearn.datasets.load_svmlight_file(...)
從買了data.org在線下載獲取的數據集：sklearn.datasets.fetch_mldata(...)

1. dataset.load_<dataset_name>：sklearn包自帶的小數據集

數據集文件在 sklearn 安裝目錄下 datasets\data 文件下

2. datasets.fetch_<dataset_name> ：比較大的數據集，主要用於測試解決實際問題，支持在線下載

下載下來的數據，默認保存在~/scikit_learn_data文件夾下，可以通過設置環境變量SCIKIT_LEARN_DATA修改路徑，datasets.get_data_home()獲取下載路徑

3. datasets.make_*?：構造數據集

下面以make_regression()函數為例，首先看看函數語法：

make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

參數說明：

n_samples：樣本數
n_features：特征數(自變量個數)
n_informative：相關特征(相關自變量個數)即參與了建模型的特征數
n_targets：因變量個數
bias：偏差(截距)
coef：是否輸出coef標識

上述輸出結果：元組中的三個數組分別對應輸入數據X，輸出數據y，coef對應數組。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【集成學習】sklearn中xgboost模塊的XGBClassifier函數【集成學習】sklearn中xgboot模塊中fit函數參數詳解（fit model for train data） sklearn包學習機器學習-Tensorflow之Tensor和Dataset學習 sklearn學習筆記之嶺回歸 sklearn 學習之分類樹 sklearn中的metrics模塊中的Classification metrics sklearn 中 make_blobs模塊使用 [PyTorch 學習筆記] 2.1 DataLoader 與 DataSet sklearn中調用集成學習算法