2.sklearn庫中的標准數據集與基本功能

本文轉載自查看原文 2017-06-04 15:07 8673 python機器學習

下面我們詳細介紹幾個有代表性的數據集：

當然同學們也可以用sklearn機器學習函數來挖掘這些數據，看看可不可以捕捉到一些有趣的想象或者是發現：

波士頓房價數據集包含506組數據，每條數據包含房屋以及房屋周圍的詳細信息。其中包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等。因此，波士頓房價數據集能夠應用到回歸問題上。

這里是波士頓房價數據集的部分房價數據信息展示：例如：NOX這個屬性代表一氧化氮的濃度，RM這個屬性代表的是住宅的平均房間數；

我們可以通過使用sklearn.datasets.load_boston即可加載相關的數據集；
　　重要參數：
　　　　1.return_X_y:表示是否返回target(即價格)，默認為False,只返回data(即屬性)。

這里我們提供兩個實例：

示例1：

示例1展示了如何import load_boston這個數據集；通過打印boston.data.shape我們可以看到維度是：506,13

示例2：當return_X_y設置為True的時候：load_boston同時返回data和target

鳶尾花數據集是數據挖掘任務常用的一個數據集；鳶尾花數據集采集的是鳶尾花的測量數據以及其所屬的類別。

測量數據包括：萼片長度、萼片寬度、花瓣長度、花瓣寬度。
類別共分為三類：Iris Setosa,Iris Versicolour,Iris Virginica。該數據集可用於多分類問題。

使用sklearn.datasets.load_iris即可加載相關數據集
參數：
1.return_X_y:若為True,則以(data,target)形式返回數據，默認為False,表示以字典形式返回數據全部信息(包含data和target)

鳶尾花數據集--加載示例：

手寫數字數據集包括：1797個0-9的手寫數字數據，每個數字由8*8大小的矩陣構成，矩陣中值的范圍是0-16，代表顏色的深度。

使用sklearn.datasets.load_digits即可加載相關的數據集；

參數：
　　return_X_y：若為True,則以(data,target)形式返回數據；默認為False,表示以字典形式返回數據全部信息(包含data和target)
n_class:表示返回數據的類別數，如:n_class=5,則返回0到4的數據樣本。

示例：

先加載數據集digits,然后通過打印digits.data.shape可以打印這個數據集的維度，加載matplotlib庫，通過使用matshow()函數和show()函數以圖像的形式展示：

sklearn庫共分為6大部分，分別用於完成分類任務、回歸任務、聚類任務、降維任務、模型選擇以及數據的預處理。

我們這里主要介紹前4部分內容:

1.對於分類任務，我們這里列出了分類模型和它的調用方法；對於支持向量機這個分類算法而言，我們需要調用svm.SVC這個模塊

2.回歸任務：回歸模型和它的調用方法

3.聚類任務：下面是聚類任務會設計到的聚類模型和調用方法

4.降維任務：降維任務所涉及到的一些方法和需要加載的模塊；

在今后的學習中，我們會以實例來具體對這些算法的使用方式來進行介紹！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 私信基本功能數據庫設計 sklearn中的datasets數據集 sklearn中的數據集的划分 sklearn數據集 pandas 數據結構的基本功能 WordCount基本功能 Zabbix的基本功能 Keycloak 基本功能 Kubernetes基本功能 SVN基本功能