数据预处理与特征工程:哑变量(离散数据)


处理分类型特征:编码与哑变量

在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理
文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fifit的时候全部要求输入数组或矩阵,也不能够导
入文字型数据(其实手写决策树和普斯贝叶斯可以处理文字,但是sklearn中规定必须导入数值型)。
然而在现实中,许多标签和特征在数据收集完毕的时候,都不是以数字来表现的。比如说,学历的取值可以是["小
学",“初中”,“高中”,"大学"],付费方式可能包含["支付宝",“现金”,“微信”]等等。在这种情况下,为了让数据适
应算法和库,我们必须将数据进行编码,即是说,将文字型数据转换为数值型。

 

一、sklearn中的处理哑变量方法

 

 

1.preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值

 1 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'])
 2 encoder = LabelEncoder()  #要输入的是标签,不是特征矩阵,所以允许一维
 3 encoder = encoder.fit(data.iloc[:,-1])#导入数据
 4 result = encoder.transform(data.iloc[:,-1])#transform接口调取结果
 5 
 6 encoder.classes_#属性.classes_查看标签中究竟有多少类别
 7 result#查看获取的结果
 8 
 9 encoder.inverse_transform(result )#使用inverse_transform可以逆转
10 
11 #一步简写
12 data.iloc[:,-1] =  LabelEncoder().fit_transform(data.iloc[:,-1])#
输出结果:
result:
array([2, 1, 0, 4, 3])#这里输出为一维矩阵

2.preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值

1 from sklearn.preprocessing import OrdinalEncoder
2 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'])
3 x = data.iloc[:,-1].values.reshape(-1,1)#转置为二维矩阵
4 OrdinalEncoder().fit(x).categories_#查看有多少分类
5 OrdinalEncoder().fit_transform(x)#转换为二维矩阵

输出结果:

array([[2.],
       [1.],
       [0.],
       [4.],
       [3.]])#与上面不同的是这里为二维矩阵

3.preprocessing.OneHotEncoder:独热编码,创建哑变量

我们来思考三种不同性质的分类数据:
1) 舱门(S,C,Q)
三种取值S,C,Q是相互独立的,彼此之间完全没有联系,表达的是S≠C≠Q的概念。这是名义变量。
2) 学历(小学,初中,高中)
三种取值不是完全独立的,我们可以明显看出,在性质上可以有高中>初中>小学这样的联系,学历有高低,但是学
历取值之间却不是可以计算的,我们不能说小学 + 某个取值 = 初中。这是有序变量。
3) 体重(>45kg,>90kg,>135kg)
各个取值之间有联系,且是可以互相计算的,比如120kg - 45kg = 90kg,分类之间可以通过数学计算互相转换。这
是有距变量。
对特征进行编码的时候,这三种分类数据都会被我们转换为[0,1,2],这三个数字在算法看来,是连续且可以
计算的,这三个数字相互不等,有大小,并且有着可以相加相乘的联系。所以算法会把舱门,学历这样的分类特
征,都误会成是体重这样的分类特征。这是说,我们把分类转换成数字的时候,忽略了数字中自带的数学性质,所
以给算法传达了一些不准确的信息,而这会影响我们的建模。
类别OrdinalEncoder可以用来处理有序变量,但对于名义变量,我们只有使用哑变量的方式来处理,才能够尽量
向算法传达最准确的信息:
 1 from sklearn.preprocessing import OneHotEncoder
 2 data = pd.DataFrame([ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师'],columns=['occupation'])
 3 X = data.iloc[:,-1].values.reshape(-1,1)#转换为二维矩阵
 4 enc = OneHotEncoder(categories='auto').fit(X)#拟合
 5 result = enc.transform(X).toarray()#输出转化值
 6 
 7 输出结果:
 8 array([[0., 0., 1., 0., 0.],
 9        [0., 1., 0., 0., 0.],
10        [1., 0., 0., 0., 0.],
11        [0., 0., 0., 0., 1.],
12        [0., 0., 0., 1., 0.]])
13 
14 OneHotEncoder(categories='auto').fit_transform(X).toarray()#一步到位
15 
16 enc.inverse_transform(result)#还原结果
17 输出结果:
18 array([['司机'],
19        ['农业技术人员'],
20        ['临时工'],
21        ['种植业生产人员'],
22        ['教师']], dtype=object)
23 
24 enc.get_feature_names()#获取转换后数值的标签
25 输出结果
26 array(['x0_临时工', 'x0_农业技术人员', 'x0_司机', 'x0_教师', 'x0_种植业生产人员'],
27       dtype=object)
28 
29 #axis=1,表示跨行进行合并,也就是将量表左右相连,如果是axis=0,就是将量表上下相连
30 newdata = pd.concat([data,pd.DataFrame(result)],axis=1)

 

 

 

二、pandas中

方法一、pd.get_dummies( data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None,)
1 data = [ '司机', '农业技术人员', '临时工', '种植业生产人员', '教师']
2 data = pd.DataFrame(data,columns=['occupation'])
3 data_dummis=pd.get_dummies(data)
4 data_dummis

输出结果:

 

  

 

方法二:pd.factorize

1 data_factorize = pd.factorize(data['occupation'])#只能填写一列
2 data_factorize

输出结果:为数组类型

1 (array([0, 1, 2, 3, 4], dtype=int64),
2  Index(['司机', '农业技术人员', '临时工', '种植业生产人员', '教师'], dtype='object'))
1 data['factorize'] = pd.DataFrame(data_factorize[0])

 

 

 扩展:(来源:菜菜老师)

 

 

 

 

 

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM