對分類特征做編碼

本文轉載自查看原文 2018-12-25 14:24 771 python/ 數據預處理

作用：將分類型數據轉換成連續的數值型變量。即是對不連續的數字或者文本進行編號。

import pandas as pd
#先創建一個數據框（包含缺失值）
df = pd.DataFrame({'auth':['spring','summer','fall','spring'],
                   'sply':['a','c','a','b'],
                   'name':['zhangsan','lisi','xiaohua','xiaomei']})
df
Out[124]: 
     auth sply      name
0  spring    a  zhangsan
1  summer    c      lisi
2    fall    a   xiaohua
3  spring    b   xiaomei

categorical_name = ['auth','sply','name']

#定義一個循環函數，處理分類型特征，進行標簽編碼
def categorical_preprocessing(dataset,categorical_feature):
    '''
    param:
        dataset:DataFrame,輸入的數據集
        categorical_feature:list,分類特征列名
    '''
    for feature in categorical_feature:
        set_feature = set(dataset[feature])#將特征映射到集合中
        dic_feature = {}
        for i ,feat in enumerate(set_feature):
            dic_feature[feat] = i
        dataset[feature] = dataset[feature].map(dic_feature)
    dataset = pd.get_dummies(dataset,columns=categorical_feature)
    return dataset

#處理分類特征編碼
dataset = categorical_preprocessing(df,categorical_name)

#分類變量編碼結果
dataset
Out[74]: 
   auth_0  auth_1  auth_2  sply_0   ...    name_0  name_1  name_2  name_3
0       0       1       0       0   ...         1       0       0       0
1       0       0       1       0   ...         0       0       1       0
2       1       0       0       0   ...         0       0       0       1
3       0       1       0       1   ...         0       1       0       0

補充：

標簽編碼完成后一般都需要再進行一次one-hot編碼，變成只包含0和1的數據。

如果變量含有順序，如：優、良、差。可以省略one-hot編碼。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 對分類型變量，進行編碼處理——pd.get_dummies()、LabelEncoder()、oneHotEncoder() 特征分類平均數編碼：針對某個分類特征類別基數特別大的編碼方式數據預處理：分類變量實體嵌入做特征提取使用微調后的Bert模型做編碼器進行文本特征向量抽取及特征降維數據預處理-處理分類型特征：編碼（LabelEncoder、OrdinalEncoder-字符型變量數值化 laravel-admin利用ModelTree實現對分類信息的管理數據特征的編碼方式類別特征的編碼處理機器學習特征表達——日期與時間特征做離散處理（數字到分類的映射），稀疏類分組（相似特征歸檔），創建虛擬變量（提取新特征）本質就是要么多變少，或少變多