2.sklearn庫中的標准數據集與基本功能


sklearn庫中的標准數據集與基本功能

下面我們詳細介紹幾個有代表性的數據集:

當然同學們也可以用sklearn機器學習函數來挖掘這些數據,看看可不可以捕捉到一些有趣的想象或者是發現:

波士頓房價數據集:

波士頓房價數據集包含506組數據,每條數據包含房屋以及房屋周圍的詳細信息。其中包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等。因此,波士頓房價數據集能夠應用到回歸問題上。

這里是波士頓房價數據集的部分房價數據信息展示:例如:NOX這個屬性代表一氧化氮的濃度,RM這個屬性代表的是住宅的平均房間數;

我們可以通過使用sklearn.datasets.load_boston即可加載相關的數據集;
  重要參數:
    1.return_X_y:表示是否返回target(即價格),默認為False,只返回data(即屬性)。

           這里我們提供兩個實例:

           示例1:

           示例1展示了如何import load_boston這個數據集;通過打印boston.data.shape我們可以看到維度是:506,13

           示例2:當return_X_y設置為True的時候:load_boston同時返回data和target

            

 

鳶尾花數據集:

鳶尾花數據集是數據挖掘任務常用的一個數據集;鳶尾花數據集采集的是鳶尾花的測量數據以及其所屬的類別。

測量數據包括:萼片長度、萼片寬度、花瓣長度、花瓣寬度。
類別共分為三類:Iris Setosa,Iris Versicolour,Iris Virginica。該數據集可用於多分類問題。

                          

使用sklearn.datasets.load_iris即可加載相關數據集
參數:
1.return_X_y:若為True,則以(data,target)形式返回數據,默認為False,表示以字典形式返回數據全部信息(包含data和target)

鳶尾花數據集--加載示例:

手寫數字數據集

手寫數字數據集包括:1797個0-9的手寫數字數據,每個數字由8*8大小的矩陣構成,矩陣中值的范圍是0-16,代表顏色的深度。

 

使用sklearn.datasets.load_digits即可加載相關的數據集;

參數:
  return_X_y:若為True,則以(data,target)形式返回數據;默認為False,表示以字典形式返回數據全部信息(包含data和target)
      n_class:表示返回數據的類別數,如:n_class=5,則返回0到4的數據樣本。

示例:

先加載數據集digits,然后通過打印digits.data.shape可以打印這個數據集的維度,加載matplotlib庫,通過使用matshow()函數和show()函數以圖像的形式展示:

 

sklearn庫的基本功能

sklearn庫共分為6大部分,分別用於完成分類任務、回歸任務、聚類任務、降維任務、模型選擇以及數據的預處理。

我們這里主要介紹前4部分內容:

1.對於分類任務,我們這里列出了分類模型和它的調用方法;對於支持向量機這個分類算法而言,我們需要調用svm.SVC這個模塊

2.回歸任務:回歸模型和它的調用方法

3.聚類任務:下面是聚類任務會設計到的聚類模型和調用方法

 

4.降維任務:降維任務所涉及到的一些方法和需要加載的模塊;

在今后的學習中,我們會以實例來具體對這些算法的使用方式來進行介紹!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM