处理分类型特征：编码与哑变量

在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理

文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fifit的时候全部要求输入数组或矩阵，也不能够导

入文字型数据（其实手写决策树和普斯贝叶斯可以处理文字，但是sklearn中规定必须导入数值型）。

然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历的取值可以是["小

学"，“初中”，“高中”，"大学"]，付费方式可能包含["支付宝"，“现金”，“微信”]等等。在这种情况下，为了让数据适

应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型。

一、sklearn中的处理哑变量方法

1.preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值

 1 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'])
 2 encoder = LabelEncoder()  #要输入的是标签，不是特征矩阵，所以允许一维
 3 encoder = encoder.fit(data.iloc[:,-1])#导入数据
 4 result = encoder.transform(data.iloc[:,-1])#transform接口调取结果
 5 
 6 encoder.classes_#属性.classes_查看标签中究竟有多少类别
 7 result#查看获取的结果
 8 
 9 encoder.inverse_transform(result )#使用inverse_transform可以逆转
10 
11 #一步简写
12 data.iloc[:,-1] =  LabelEncoder().fit_transform(data.iloc[:,-1])#

输出结果：
result：
array([2, 1, 0, 4, 3])#这里输出为一维矩阵

2.preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值

1 from sklearn.preprocessing import OrdinalEncoder
2 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'])
3 x = data.iloc[:,-1].values.reshape(-1,1)#转置为二维矩阵
4 OrdinalEncoder().fit(x).categories_#查看有多少分类
5 OrdinalEncoder().fit_transform(x)#转换为二维矩阵

输出结果：

array([[2.],
       [1.],
       [0.],
       [4.],
       [3.]])#与上面不同的是这里为二维矩阵

3.preprocessing.OneHotEncoder：独热编码，创建哑变量

我们来思考三种不同性质的分类数据：

1）舱门（S，C，Q）

三种取值S，C，Q是相互独立的，彼此之间完全没有联系，表达的是S≠C≠Q的概念。这是名义变量。

2）学历（小学，初中，高中）

三种取值不是完全独立的，我们可以明显看出，在性质上可以有高中>初中>小学这样的联系，学历有高低，但是学

历取值之间却不是可以计算的，我们不能说小学 + 某个取值 = 初中。这是有序变量。

3）体重（>45kg，>90kg，>135kg）

各个取值之间有联系，且是可以互相计算的，比如120kg - 45kg = 90kg，分类之间可以通过数学计算互相转换。这

是有距变量。

对特征进行编码的时候，这三种分类数据都会被我们转换为[0,1,2]，这三个数字在算法看来，是连续且可以

计算的，这三个数字相互不等，有大小，并且有着可以相加相乘的联系。所以算法会把舱门，学历这样的分类特

征，都误会成是体重这样的分类特征。这是说，我们把分类转换成数字的时候，忽略了数字中自带的数学性质，所

以给算法传达了一些不准确的信息，而这会影响我们的建模。

类别OrdinalEncoder可以用来处理有序变量，但对于名义变量，我们只有使用哑变量的方式来处理，才能够尽量

向算法传达最准确的信息：

 1 from sklearn.preprocessing import OneHotEncoder
 2 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'],columns=['occupation'])
 3 X = data.iloc[:,-1].values.reshape(-1,1)#转换为二维矩阵
 4 enc = OneHotEncoder(categories='auto').fit(X)#拟合
 5 result = enc.transform(X).toarray()#输出转化值
 6 
 7 输出结果：
 8 array([[0., 0., 1., 0., 0.],
 9        [0., 1., 0., 0., 0.],
10        [1., 0., 0., 0., 0.],
11        [0., 0., 0., 0., 1.],
12        [0., 0., 0., 1., 0.]])
13 
14 OneHotEncoder(categories='auto').fit_transform(X).toarray()#一步到位
15 
16 enc.inverse_transform(result)#还原结果
17 输出结果：
18 array([['司机'],
19        ['农业技术人员'],
20        ['临时工'],
21        ['种植业生产人员'],
22        ['教师']], dtype=object)
23 
24 enc.get_feature_names()#获取转换后数值的标签
25 输出结果
26 array(['x0_临时工', 'x0_农业技术人员', 'x0_司机', 'x0_教师', 'x0_种植业生产人员'],
27       dtype=object)
28 
29 #axis=1,表示跨行进行合并，也就是将量表左右相连，如果是axis=0，就是将量表上下相连
30 newdata = pd.concat([data,pd.DataFrame(result)],axis=1)

二、pandas中

方法一、pd.get_dummies( data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None,)

1 data = [ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师']
2 data = pd.DataFrame(data,columns=['occupation'])
3 data_dummis=pd.get_dummies(data)
4 data_dummis

输出结果：

方法二：pd.factorize

1 data_factorize = pd.factorize(data['occupation'])#只能填写一列
2 data_factorize

输出结果：为数组类型

1 (array([0, 1, 2, 3, 4], dtype=int64),
2  Index(['司机', '农业技术人员', '临时工', '种植业生产人员', '教师'], dtype='object'))

1 data['factorize'] = pd.DataFrame(data_factorize[0])

扩展：（来源：菜菜老师）

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 特征工程（5）-数据预处理哑编码数据预处理和特征工程数据预处理--离散变量处理特征工程（4）-数据预处理二值化 sklearn中的数据预处理和特征工程数据预处理：离散特征编码方法 4-Pandas数据预处理之数据转换（哑变量编码pd.get_dummies()）数据预处理之离散化特征工程之离散变量处理机器学习 | 特征工程（一）- 数据预处理