機器學習實戰：數據預處理之獨熱編碼（One-Hot Encoding）

本文轉載自查看原文 2014-06-02 21:44 8092 python 機器學習預處理

問題由來

在很多機器學習任務中，特征並不總是連續值，而有可能是分類值。

例如，考慮一下的三個特征：

["male", "female"]

["from Europe", "from US", "from Asia"]

["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果將上述特征用數字表示，效率會高很多。例如：

["male", "from US", "uses Internet Explorer"] 表示為[0, 1, 3]

["female", "from Asia", "uses Chrome"]表示為[1, 2, 1]

但是，即使轉化為數字表示后，上述數據也不能直接用在我們的分類器中。因為，分類器往往默認數據數據是連續的，並且是有序的。但是，按照我們上述的表示，數字並不是有序的，而是隨機分配的。

獨熱編碼

為了解決上述問題，其中一種可能的解決方法是采用獨熱編碼（One-Hot Encoding）。

獨熱編碼即 One-Hot 編碼，又稱一位有效編碼，其方法是使用N位狀態寄存器來對N個狀態進行編碼，每個狀態都由他獨立的寄存器位，並且在任意時候，其中只有一位有效。

例如：

自然狀態碼為：000,001,010,011,100,101

獨熱編碼為：000001,000010,000100,001000,010000,100000

可以這樣理解，對於每一個特征，如果它有m個可能值，那么經過獨熱編碼后，就變成了m個二元特征。並且，這些特征互斥，每次只有一個激活。因此，數據會變成稀疏的。

這樣做的好處主要有：

解決了分類器不好處理屬性數據的問題
在一定程度上也起到了擴充特征的作用

舉例

我們基於python和Scikit-learn寫一個簡單的例子：

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

enc.transform([[0, 1, 3]]).toarray()

輸出結果：

array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據預處理：獨熱編碼（One-Hot Encoding）【轉】數據預處理之獨熱編碼（One-Hot Encoding）機器學習：數據預處理之獨熱編碼（One-Hot）數據預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標簽編碼 One-Hot Encoding（獨熱編碼）【知識相關】機器學習之獨熱編碼（One-Hot）詳解（代碼解釋）機器學習中為何要使用獨熱編碼 one-hot 機器學習中為什么使用one-hot編碼機器學習之離散型特征處理--獨熱碼（one_hot_encoding）獨熱編碼（One-Hot）的理解