sklearn.pipeline

pipeline的目的將許多算法模型串聯起來，比如將特征提取、歸一化、分類組織在一起形成一個典型的機器學習問題工作流。

優點：

1.直接調用fit和predict方法來對pipeline中的所有算法模型進行訓練和預測

2.可以結合grid search對參數進行選擇。

1.DictVectorizer、DecisionTreeClassifier——>pipeline模型

import pandas as pd
import numpy as np
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
titanic.head()
titanic.info()
X = titanic[['pclass','age','sex']]
y = titanic['survived']
X['age'].fillna(X['age'].mean(),inplace=True)
X.info()
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33)
X_train = X_train.to_dict(orient='record')
X_test = X_test.to_dict(orient='record')
#將非數值型數據轉換為數值型數據
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline

'''
vec = DictVectorizer() 
vec.fit_transform(data)
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train,y_train)
clf.predict(X_test)
'''

clf = Pipeline([('vecd',DictVectorizer(sparse=False)),('dtc',DecisionTreeClassifier())])
vec = DictVectorizer(sparse=False)
 
clf.fit(X_train,y_train)
y_predict = clf.predict(X_test)
from sklearn.metrics import classification_report
print (clf.score(X_test,y_test))
print(classification_report(y_predict,y_test,target_names=['died','survivied']))

2.結合GridSearch進行參數調優

from sklearn.datasets import fetch_20newsgroups
import numpy as np
news = fetch_20newsgroups(subset='all')
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test = train_test_split(news.data[:3000],news.target[:3000],test_size=0.25,random_state=33)
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X_count_train = vec.fit_transform(X_train)
X_count_test = vec.transform(X_test)
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
#使用pipeline簡化系統搭建流程，將文本抽取與分類器模型串聯起來
clf = Pipeline([
    ('vect',TfidfVectorizer(stop_words='english')),('svc',SVC())
])
# 注意，這里經pipeline進行特征處理、SVC模型訓練之后，得到的直接就是訓練好的分類器clf
 
parameters = {
    'svc__gamma':np.logspace(-2,1,4),
    'svc__C':np.logspace(-1,1,3),
    'vect__analyzer':['word']
}
 
#n_jobs=-1代表使用計算機的全部CPU
from sklearn.grid_search import GridSearchCV
gs = GridSearchCV(clf,parameters,verbose=2,refit=True,cv=3,n_jobs=-1)
 
%time _=gs.fit(X_train,y_train)
print (gs.best_params_,gs.best_score_)
print (gs.score(X_test,y_test))

parameters變量里面的key都有一個前綴，不難發現，這個前綴其實就是在Pipeline中定義的操作名。二者相結合，是我們的代碼變得十分簡潔。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sklearn 中的 Pipeline 機制和FeatureUnion Python中使用sklearn 的 Pipeline 管道機制多項式回歸原理及在sklearn中的使用+pipeline pipeline 機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特征聯合）: 合並的評估器 Spark Pipeline redis pipeline Pipeline Stages Redis Pipeline Jenkins Pipeline： pipeline語法詳解