sklearn.preprocessing OneHotEncoder——僅僅是數值型字段才可以，如果是字符類型字段則不能直接搞定

本文轉載自查看原文 2017-11-08 20:06 3204 python/ 機器學習/ spark

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()

>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) >>> enc.n_values_ array([2, 3, 4]) >>> enc.feature_indices_ array([0, 2, 5, 9]) >>> enc.transform([[0, 1, 1]]).toarray() array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])

注意：僅僅是數值型字段才可以，如果是字符類型字段則不能直接搞定

需要使用pandas get_dummies搞定

例如：

Using the get_dummies will create a new column for every unique string in a certain column:使用get_dummies進行one-hot編碼

pd.get_dummies(df)


還可以：

import pandas as pd
import numpy as np
from sklearn_pandas import DataFrameMapper
from sklearn.preprocessing import OneHotEncoder

data = pd.DataFrame({'text':['aaa', 'bbb'], 'number_1':[1, 1], 'number_2':[2, 2]})

#    number_1  number_2 text
# 0         1         2  aaa
# 1         1         2  bbb

# SomeEncoder here must be any encoder which will help you to get
# numerical representation from text column
mapper = DataFrameMapper([
    ('text', SomeEncoder),
    (['number_1', 'number_2'], OneHotEncoder())
])
mapper.fit_transform(data)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據規范化——sklearn.preprocessing sklearn學習筆記（一）——數據預處理 sklearn.preprocessing sklearn.preprocessing歸一化標准化等數據預處理 | 使用 sklearn.preprocessing.OrdinalEncoder 將分類特征轉換為數值型 MySQL 字符串類型和數值型字段關聯查詢 Redis不僅僅是緩存，還是…… Python數據預處理(sklearn.preprocessing)—歸一化(MinMaxScaler)，標准化(StandardScaler)，正則化(Normalizer, normalize) 數值型數據轉換為字符串類型的方法 SQL中的五種數據類型：字符型，文本型，數值型，邏輯型和日期型 NoSQL——not onlySQL不僅僅是SQL