sklearn dataset 模塊學習


sklearn.datasets官網:http://scikit-learn.org/stable/datasets/

sklearn.datasets 模塊主要提供一些導入、在線下載及本地生成數據集的方法,可以通過 dir 或 help 命令查看,會發現主要有三種形式:load_<dataset_name>、fetch_<dataset_name> 及 make_<dataset_name> 的方法

sklearn 的數據集有好多個種

  • 自帶的小數據集(packaged dataset):sklearn.datasets.load_<name>
  • 可在線下載的數據集(Downloaded Dataset):sklearn.datasets.fetch_<name>
  • 計算機生成的數據集(Generated Dataset):sklearn.datasets.make_<name>
  • svmlight/libsvm格式的數據集:sklearn.datasets.load_svmlight_file(...)
  • 從買了data.org在線下載獲取的數據集:sklearn.datasets.fetch_mldata(...)

1. dataset.load_<dataset_name>:sklearn包自帶的小數據集

    

數據集文件在 sklearn 安裝目錄下 datasets\data 文件下

2. datasets.fetch_<dataset_name> :比較大的數據集,主要用於測試解決實際問題,支持在線下載

下載下來的數據,默認保存在~/scikit_learn_data文件夾下,可以通過設置環境變量SCIKIT_LEARN_DATA修改路徑,datasets.get_data_home()獲取下載路徑

3. datasets.make_*?:構造數據集

下面以make_regression()函數為例,首先看看函數語法:

make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

參數說明:

  • n_samples:樣本數
  • n_features:特征數(自變量個數)
  • n_informative:相關特征(相關自變量個數)即參與了建模型的特征數
  • n_targets:因變量個數
  • bias:偏差(截距)
  • coef:是否輸出coef標識

上述輸出結果:元組中的三個數組分別對應輸入數據X,輸出數據y,coef對應數組。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM