簡單的來說:
LabelEncoder()是標簽編碼,即是對不連續的數字或者文本進行編號,轉換成連續的數值型變量,例如
from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit([1,5,67,100]) le.transform([1,1,100,67,5])
輸出: array([0,0,3,2,1])
OneHotEncoder()即獨熱編碼,直觀的來看就是有幾個需要編碼的狀態就有幾個比特,例如
5個需要編碼的,編碼結果就是[1,0,0,0,0],[0,1,0,0,0],[0,0,1,0,0],[0,0,0,1,0],[0,0,0,01]
一般用來分類
這是簡單直觀的區分和介紹兩種編碼的使用,具體詳細的可以參考:https://www.cnblogs.com/king-lps/p/7846414.html,寫的非常細致