处理分类型特征:编码与哑变量
在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理
文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fifit的时候全部要求输入数组或矩阵,也不能够导
入文字型数据(其实手写决策树和普斯贝叶斯可以处理文字,但是sklearn中规定必须导入数值型)。
然而在现实中,许多标签和特征在数据收集完毕的时候,都不是以数字来表现的。比如说,学历的取值可以是["小
学",“初中”,“高中”,"大学"],付费方式可能包含["支付宝",“现金”,“微信”]等等。在这种情况下,为了让数据适
应算法和库,我们必须将数据进行编码,即是说,将文字型数据转换为数值型。
一、sklearn中的处理哑变量方法
1.preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值
1 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师']) 2 encoder = LabelEncoder() #要输入的是标签,不是特征矩阵,所以允许一维 3 encoder = encoder.fit(data.iloc[:,-1])#导入数据 4 result = encoder.transform(data.iloc[:,-1])#transform接口调取结果 5 6 encoder.classes_#属性.classes_查看标签中究竟有多少类别 7 result#查看获取的结果 8 9 encoder.inverse_transform(result )#使用inverse_transform可以逆转 10 11 #一步简写 12 data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])#
输出结果:
result:
array([2, 1, 0, 4, 3])#这里输出为一维矩阵
2.preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值
1 from sklearn.preprocessing import OrdinalEncoder 2 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师']) 3 x = data.iloc[:,-1].values.reshape(-1,1)#转置为二维矩阵 4 OrdinalEncoder().fit(x).categories_#查看有多少分类 5 OrdinalEncoder().fit_transform(x)#转换为二维矩阵
输出结果:
array([[2.], [1.], [0.], [4.], [3.]])#与上面不同的是这里为二维矩阵
3.preprocessing.OneHotEncoder:独热编码,创建哑变量
我们来思考三种不同性质的分类数据:
1) 舱门(S,C,Q)
三种取值S,C,Q是相互独立的,彼此之间完全没有联系,表达的是S≠C≠Q的概念。这是名义变量。
2) 学历(小学,初中,高中)
三种取值不是完全独立的,我们可以明显看出,在性质上可以有高中>初中>小学这样的联系,学历有高低,但是学
历取值之间却不是可以计算的,我们不能说小学 + 某个取值 = 初中。这是有序变量。
3) 体重(>45kg,>90kg,>135kg)
各个取值之间有联系,且是可以互相计算的,比如120kg - 45kg = 90kg,分类之间可以通过数学计算互相转换。这
是有距变量。
对特征进行编码的时候,这三种分类数据都会被我们转换为[0,1,2],这三个数字在算法看来,是连续且可以
计算的,这三个数字相互不等,有大小,并且有着可以相加相乘的联系。所以算法会把舱门,学历这样的分类特
征,都误会成是体重这样的分类特征。这是说,我们把分类转换成数字的时候,忽略了数字中自带的数学性质,所
以给算法传达了一些不准确的信息,而这会影响我们的建模。
类别OrdinalEncoder可以用来处理有序变量,但对于名义变量,我们只有使用哑变量的方式来处理,才能够尽量
向算法传达最准确的信息:
1 from sklearn.preprocessing import OneHotEncoder 2 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'],columns=['occupation']) 3 X = data.iloc[:,-1].values.reshape(-1,1)#转换为二维矩阵 4 enc = OneHotEncoder(categories='auto').fit(X)#拟合 5 result = enc.transform(X).toarray()#输出转化值 6 7 输出结果: 8 array([[0., 0., 1., 0., 0.], 9 [0., 1., 0., 0., 0.], 10 [1., 0., 0., 0., 0.], 11 [0., 0., 0., 0., 1.], 12 [0., 0., 0., 1., 0.]]) 13 14 OneHotEncoder(categories='auto').fit_transform(X).toarray()#一步到位 15 16 enc.inverse_transform(result)#还原结果 17 输出结果: 18 array([['司机'], 19 ['农业技术人员'], 20 ['临时工'], 21 ['种植业生产人员'], 22 ['教师']], dtype=object) 23 24 enc.get_feature_names()#获取转换后数值的标签 25 输出结果 26 array(['x0_临时工', 'x0_农业技术人员', 'x0_司机', 'x0_教师', 'x0_种植业生产人员'], 27 dtype=object) 28 29 #axis=1,表示跨行进行合并,也就是将量表左右相连,如果是axis=0,就是将量表上下相连 30 newdata = pd.concat([data,pd.DataFrame(result)],axis=1)
二、pandas中
方法一、pd.get_dummies( data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None,)
1 data = [ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'] 2 data = pd.DataFrame(data,columns=['occupation']) 3 data_dummis=pd.get_dummies(data) 4 data_dummis
输出结果:
方法二:pd.factorize
1 data_factorize = pd.factorize(data['occupation'])#只能填写一列 2 data_factorize
输出结果:为数组类型
1 (array([0, 1, 2, 3, 4], dtype=int64), 2 Index(['司机', '农业技术人员', '临时工', '种植业生产人员', '教师'], dtype='object'))
1 data['factorize'] = pd.DataFrame(data_factorize[0])
扩展:(来源:菜菜老师)