使用sklearn來處理類別數據

本文轉載自查看原文 2019-08-06 21:40 723 機器學習

轉載自：https://blog.csdn.net/sinat_29957455/article/details/79452141

在處理真實的數據集的時候，我們經常會遇見一個或多個的類別數據的特征。類別數據可以被分為標稱特征(nominal feature)和有序特征(ordinal feature)。有序特征指的是類別的值是有序的或者是可以排序的，例如，衣服的尺碼S、M、X、XL、XXL...就是屬於有序特征。再例如，衣服的顏色，黑色、藍色、白色、黃色...這些就屬於標稱特征。

一、有序特征的映射

我們可以將有序特征裝換成為整數，整數包含一定的順序。沒有一個合適的方法可以自動將尺寸特征轉換成為正確的順序，所以我們需要手動來指定相應的映射關系。例如，S:1，M:2，X:3，我們可以利用pandas的map方法來實現。

import pandas as pd

if __name__ == "__main__":
\#定義衣服尺寸的映射關系
size_mapping = {"S":1,"M":2,"X":3,"XL":4}
\#定義一個DataFrame數據
data = pd.DataFrame([
["green","S",100],
["blue", "M", 110],
["red", "X", 120],
["black", "XL", 130]
])
\#設置列名
data.columns = ["color","size","price"]
\#對size列的類別數據進行映射
data["size"] = data["size"].map(size_mapping)
print(data)

二、類標的編碼

許多的機器學習算法都要求將類標換成整數值來進行處理。對於類標進行編碼與之前對於有序特征的映射有所不同，類標並不要求是有序的，對於特定的字符串類標賦予哪個整數值給它對於我們來說並不重要，所以在對於類標進行編碼的時候我們可以使用枚舉的方式從0開始設定類標。

import pandas as pd
import numpy as np

if __name__ == "__main__":
\# 定義一個DataFrame數據
data = pd.DataFrame([
["green", "S", 100,"label1"],
["blue", "M", 110,"label2"],
["red", "X", 120,"label3"],
["black", "XL", 130,"label4"]
])
\# 設置列名
data.columns = ["color", "size", "price","label"]
\#通過枚舉獲取類標與整數之間的映射關系
label_mapping = {label:idx for idx,label in enumerate(np.unique(data["label"]))}
print(label_mapping)
\#對label列進行映射
data["label"] = data["label"].map(label_mapping)
print(data)

通過下面的方法可以將整數類標還原為字符串

inv_label_mapping = {v:k for k,v in label_mapping.items()}
data["label"] = data["label"].map(inv_label_mapping)
print(data)

還可以通過sklearn的LabelEncoder類來實現類標的編碼

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

if __name__ == "__main__":
\# 定義一個DataFrame數據
data = pd.DataFrame([
["green", "S", 100,"label1"],
["blue", "M", 110,"label2"],
["red", "X", 120,"label3"],
["black", "XL", 130,"label4"]
])
\# 設置列名
data.columns = ["color", "size", "price","label"]
class_label = LabelEncoder()
data["label"] = class_label.fit_transform(data["label"].values)
print(data)

通過sklearn的inverse_transform方法可以將整數類標還原為原始的字符串

data["label"] = class_label.inverse_transform(data["label"])
print(data)

三、標稱特征上的獨熱編碼(one-hot encoding)

我們對上面衣服的顏色特征進行編碼，將顏色映射為{"green":0,"blue":1,"red":2,"black":3}。看起來這樣映射好像沒什么問題，真的沒有問題嗎？實則不然，我們這樣映射實際上給顏色強加了一個大小關系，即black>red>blue>green，實際上顏色是不存在這種關系的，很顯然結果肯定也不是最優的。這時，我們可以通過獨熱編碼(one-hot encoding)來解決這一類問題。獨熱編碼是通過創建一個新的虛擬特征，虛擬特征的每一列各代表標稱數據的一個值。例如，顏色一共有四個取值green、blue、red、black，獨熱編碼是通過四位二進制來表示，如果是green就表示為[1,0,0,0]，對應的顏色是[green,blue,red,black]，如果屬於哪一種顏色，則取值為1，否則為0。

使用sklearn的OneHotEncoder實現OneHot編碼

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

if __name__ == "__main__":
\# 定義一個DataFrame數據
data = pd.DataFrame([
["green", "S", 100, "label1"],
["blue", "M", 110, "label2"],
["red", "X", 120, "label3"],
["black", "XL", 130, "label4"]
])
\# 設置列名
data.columns = ["color", "size", "price", "label"]
X = data[["color", "price"]].values
\#通過類標編碼將顏色裝換成為整數
color_label = LabelEncoder()
X[:,0] = color_label.fit_transform(X[:,0])
\#設置顏色列使用oneHot編碼
one_hot = OneHotEncoder(categorical_features=[0])
print(one_hot.fit_transform(X).toarray())

注意：在使用OneHotEncoder進行OneHot編碼的時候，需要先將字符串轉換成為整數之后才能進行OneHot編碼，不然會報錯。

使用pandas來實現oneHot編碼

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

if __name__ == "__main__":
\# 定義一個DataFrame數據
data = pd.DataFrame([
["green", "S", 100, "label1"],
["blue", "M", 110, "label2"],
["red", "X", 120, "label3"],
["black", "XL", 130, "label4"]
])
\# 設置列名
data.columns = ["color", "size", "price", "label"]
X = data[["color", "price"]].values
\#pandas的get_dummies方法只對字符串列進行轉換，其他的列保持不變
print(pd.get_dummies(data[["color","price"]]))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 cityscape分割3類別數據處理【機器學習】數據預處理之將類別數據轉換為數值 python 拆分多類別數據集使用MXNet的NDArray來處理數據使用MXNet的NDArray來處理數據從VOC數據集選擇部分類別數據在kettle使用循環來處理表中的數據 05-商品類別數據和VUE展示統計類別數量並且使用pyplot畫出柱狀圖使用for或while循環來處理處理不確定頁數的網頁數據爬取