scikit-learn——快速入門


scikit-learn——快速入門

sklearn 快速入門

環境:

  • ubuntu 12.04, 64 bits
  • python 2.7
  • sklearn 0.14

好幾個月沒有發博客了,平時的筆記都隨意記在印象筆記中。現在閑着有空,把 sklearn 的基本模型學一學。實際上 scikit-learn 的學習材料非常非常齊全,建議英文好的同學直接看官方文檔

准備

sklearn 快速入門的官方文檔在這里。這個文檔主要描述機器學習的概念,以及如何加載數據訓練模型保存模型

這里提供另外一個更加詳細的材料,這份材料基於ipython notebook,可以在瀏覽器里運行代碼,功能強大,演示效果非常好,github下載地址。如果電腦上沒有安裝git,請參考這篇博客進行設置。

  • 將材料下載到本地:
    git clone git@github.com:jakevdp/sklearn_pycon2013.git
    
  • 安裝 ipython-notebook
    sudo easy_install "ipython>=0.13" jinja2 "tornado>=3.1.0" pyzmq
    sudo apt-get install ipython-notebook
    
  • 打開材料
    cd PATH/TO/sklearn_pycon2013/notebook
    ipython notebook --pylab inline
    

    --pylab inline 參數可以使 notebook 在瀏覽器里面直接畫圖效果

數據

sklearn 中的數據一般存放為二維數組,形狀為 [n_samples, n_feartures]。比如著名的 iris 數據集(鳶尾花)包含了三種類別的花(target),共 150 組數據(samples),每組數據由 4 個特征組成,具體來說就是:萼片的長度、萼片的寬度、花瓣的長度、花瓣的寬度。那么,iris 數據集的 data 就由 150*4 的二維數組組成。

sklearn 提供了很多數據集,一類比較小,直接打包在庫中,可以通過 datasets.load_ + Tab 來查看,另一類比較大,需要下載,可以通過 datasets.fetch_ + Tab 查看,下載的目錄可以通過sklearn.datasets.get_data_home()查看。

更詳細的信息請參考 notebook 中的 02_sklearn_data.ipynb 文件。

接口

創建一個機器學習的模型很簡單:

from sklearn.linear_model import LinearRegression
model = LinearRegression()
print model

所有模型提供的接口有:

  • model.fit(): 實際上就是訓練,對於監督模型來說是 fit(X, y),對於非監督模型是 fit(X)。

監督模型提供:

  • model.predict(X_new): 判別新樣本
  • model.predict_proba(X_new): 某些模型可以輸出概率,比如 LR,上一個輸出的就是概率最大的 target
  • model.score(): 得分越高,fit 越好

非監督模型提供:

  • model.transform(): 從數據中學到新的“基空間”。
  • model.fit_transform(): 從數據中學到新的基並將這個數據按照這組“基”進行轉換。

下面這個圖展示了這些接口在機器學習模型中的位置:

 

更多信息請查看 ipython notebook 文檔中的內容。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM