sklearn庫中的標准數據集與基本功能
下面我們詳細介紹幾個有代表性的數據集:
當然同學們也可以用sklearn機器學習函數來挖掘這些數據,看看可不可以捕捉到一些有趣的想象或者是發現:
波士頓房價數據集:
波士頓房價數據集包含506組數據,每條數據包含房屋以及房屋周圍的詳細信息。其中包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等。因此,波士頓房價數據集能夠應用到回歸問題上。
這里是波士頓房價數據集的部分房價數據信息展示:例如:NOX這個屬性代表一氧化氮的濃度,RM這個屬性代表的是住宅的平均房間數;
我們可以通過使用sklearn.datasets.load_boston即可加載相關的數據集;
重要參數:
1.return_X_y:表示是否返回target(即價格),默認為False,只返回data(即屬性)。
這里我們提供兩個實例:
示例1:
示例1展示了如何import load_boston這個數據集;通過打印boston.data.shape我們可以看到維度是:506,13
示例2:當return_X_y設置為True的時候:load_boston同時返回data和target
鳶尾花數據集:
鳶尾花數據集是數據挖掘任務常用的一個數據集;鳶尾花數據集采集的是鳶尾花的測量數據以及其所屬的類別。
測量數據包括:萼片長度、萼片寬度、花瓣長度、花瓣寬度。
類別共分為三類:Iris Setosa,Iris Versicolour,Iris Virginica。該數據集可用於多分類問題。
使用sklearn.datasets.load_iris即可加載相關數據集
參數:
1.return_X_y:若為True,則以(data,target)形式返回數據,默認為False,表示以字典形式返回數據全部信息(包含data和target)
鳶尾花數據集--加載示例:
手寫數字數據集
手寫數字數據集包括:1797個0-9的手寫數字數據,每個數字由8*8大小的矩陣構成,矩陣中值的范圍是0-16,代表顏色的深度。
使用sklearn.datasets.load_digits即可加載相關的數據集;
參數:
return_X_y:若為True,則以(data,target)形式返回數據;默認為False,表示以字典形式返回數據全部信息(包含data和target)
n_class:表示返回數據的類別數,如:n_class=5,則返回0到4的數據樣本。
示例:
先加載數據集digits,然后通過打印digits.data.shape可以打印這個數據集的維度,加載matplotlib庫,通過使用matshow()函數和show()函數以圖像的形式展示:
sklearn庫的基本功能
sklearn庫共分為6大部分,分別用於完成分類任務、回歸任務、聚類任務、降維任務、模型選擇以及數據的預處理。
我們這里主要介紹前4部分內容:
1.對於分類任務,我們這里列出了分類模型和它的調用方法;對於支持向量機這個分類算法而言,我們需要調用svm.SVC這個模塊
2.回歸任務:回歸模型和它的調用方法
3.聚類任務:下面是聚類任務會設計到的聚類模型和調用方法
4.降維任務:降維任務所涉及到的一些方法和需要加載的模塊;
在今后的學習中,我們會以實例來具體對這些算法的使用方式來進行介紹!