問題由來
在很多機器學習任務中,特征並不總是連續值,而有可能是分類值。
例如,考慮一下的三個特征:
["male", "female"]
["from Europe", "from US", "from Asia"]
["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]
如果將上述特征用數字表示,效率會高很多。例如:
["male", "from US", "uses Internet Explorer"] 表示為[0, 1, 3]
["female", "from Asia", "uses Chrome"]表示為[1, 2, 1]
但是,即使轉化為數字表示后,上述數據也不能直接用在我們的分類器中。因為,分類器往往默認數據數據是連續的,並且是有序的。但是,按照我們上述的表示,數字並不是有序的,而是隨機分配的。
獨熱編碼
為了解決上述問題,其中一種可能的解決方法是采用獨熱編碼(One-Hot Encoding)。
獨熱編碼即 One-Hot 編碼,又稱一位有效編碼,其方法是使用N位狀態寄存器來對N個狀態進行編碼,每個狀態都由他獨立的寄存器位,並且在任意時候,其中只有一位有效。
例如:
自然狀態碼為:000,001,010,011,100,101
獨熱編碼為:000001,000010,000100,001000,010000,100000
可以這樣理解,對於每一個特征,如果它有m個可能值,那么經過獨熱編碼后,就變成了m個二元特征。並且,這些特征互斥,每次只有一個激活。因此,數據會變成稀疏的。
這樣做的好處主要有:
-
解決了分類器不好處理屬性數據的問題
-
在一定程度上也起到了擴充特征的作用
舉例
我們基於python和Scikit-learn寫一個簡單的例子:
from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.transform([[0, 1, 3]]).toarray()
輸出結果:
array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])