Spark ML中的特征轉換算法——OneHotEncoder

本文轉載自查看原文 2022-03-07 11:14 781 Spark ML

一、為什么要用獨熱編碼？

在很多機器學習任務中，特征並不總是連續值，而有可能是分類值。

離散特征的編碼分為兩種情況：

1、離散特征的取值之間沒有大小的意義，比如color：[red,blue],那么就使用one-hot編碼

2、離散特征的取值有大小的意義，比如size:[X,XL,XXL],那么就使用數值的映射{X:1,XL:2,XXL:3}

例如，考慮一下的三個特征：

["male", "female"]

["from Europe", "from US", "from Asia"]

["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果將上述特征用數字表示，效率會高很多。例如

["male", "from US", "uses Internet Explorer"] 表示為[0, 1, 3]

["female", "from Asia", "uses Chrome"]表示為[1, 2, 1]

但是，即使轉化為數字表示后，上述數據也不能直接用在我們的分類器中。因為，分類器往往默認數據數據是連續的（可以計算距離？），並且是有序的（而上面這個0並不是說比1要高級）。但是，按照我們上述的表示，數字並不是有序的，而是隨機分配的。

為了解決上述問題，其中一種可能的解決方法是采用獨熱編碼（One-Hot Encoding）。獨熱編碼即 One-Hot 編碼，又稱一位有效編碼，其方法是使用N位狀態寄存器來對N個狀態進行編碼，每個狀態都由他獨立的寄存器位，並且在任意時候，其中只有一位有效。

例如：

自然狀態碼為：000,001,010,011,100,101
獨熱編碼為：000001,000010,000100,001000,010000,100000

可以這樣理解，對於每一個特征，如果它有m個可能值，那么經過獨熱編碼后，就變成了m個二元特征。如上例所示，自然碼有6個狀態，每個狀態都可以由6位的獨熱編碼（0、1）解釋。

並且，這些特征互斥，每次只有一個激活。因此，數據會變成稀疏的。

這樣做的好處主要有：

解決了分類器不好處理屬性數據的問題；
在一定程度上也起到了擴充特征的作用。

二、獨熱編碼

　　獨熱編碼（是因為大部分算法是基於向量空間中的度量來進行計算的，為了使非偏序關系的變量取值不具有偏序性，並且到原點是等距的。使用one-hot編碼，將離散特征的取值擴展到了歐式空間，離散特征的某個取值就對應歐式空間的某個點。將離散型特征使用one-hot編碼，會讓特征之間的距離計算更加合理。離散特征進行one-hot編碼后，編碼后的特征，其實每一維度的特征都可以看做是連續的特征。就可以跟對連續型特征的歸一化方法一樣，對每一維特征進行歸一化。比如歸一化到[-1,1]或歸一化到均值為0,方差為1。

　　將離散特征通過one-hot編碼映射到歐式空間，是因為，在回歸，分類，聚類等機器學習算法中，特征之間距離的計算或相似度的計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算余弦相似性，基於的就是歐式空間。

優點：獨熱編碼解決了分類器不好處理屬性數據的問題，在一定程度上也起到了擴充特征的作用。它的值只有0和1，不同的類型存儲在垂直的空間。
缺點：當類別的數量很多時，特征空間會變得非常大。在這種情況下，一般可以用PCA來減少維度。而且one hot encoding+PCA這種組合在實際中也非常有用。
適合用的場景：獨熱編碼用來解決類別型數據的離散值問題；
不適用的場景：將離散型特征進行one-hot編碼的作用，是為了讓距離計算更合理，但如果特征是離散的，並且不用one-hot編碼就可以很合理的計算出距離，那么就沒必要進行one-hot編碼。有些基於樹的算法在處理變量時，並不是基於向量空間度量，數值只是個類別符號，即沒有偏序關系，所以不用進行獨熱編碼。 Tree Model不太需要one-hot編碼：對於決策樹來說，one-hot的本質是增加樹的深度。
需要歸一化：基於參數的模型或基於距離的模型，都是要進行特征的歸一化；
不用歸一化：基於樹的方法是不需要進行特征的歸一化，例如隨機森林，bagging 和 boosting等。

三、獨熱編碼使用示例

　　One-hot 編碼將表示為標簽索引的分類特征映射到二進制向量，該向量最多具有一個單值，表示所有特征值集中存在特定特征值。這種編碼允許期望連續特征的算法（例如邏輯回歸）使用分類特征。對於字符串類型的輸入數據，通常首先使用 StringIndexer 對分類特征進行編碼。

　　OneHotEncoder 可以轉換多個列，為每個輸入列返回一個單熱編碼的輸出向量列。通常使用 VectorAssembler 將這些向量合並為單個特征向量。

　　OneHotEncoder 支持 handleInvalid 參數來選擇在轉換數據時如何處理無效輸入。可用選項包括“keep”（任何無效輸入都分配給額外的分類索引）和“error”（拋出錯誤）。

%spark
// 特征轉換 —— —— OneHotEncoder
// 一種單熱編碼器又稱一位有效編碼，其方法是使用N位狀態寄存器來對N個狀態進行編碼，每個狀態都有它獨立的寄存器位，並且在任意時候，其中只有一位有效。
// 可以這樣理解，對於每一個特征，如果它有m個可能值，那么經過獨熱編碼后，就變成了m個二元特征。並且，這些特征互斥，每次只有一個激活。因此，數據會變成稀疏的。
// 作用：將離散的分類特征轉換為數字表示的特征
// 這樣做的好處：1、解決了分類器不好處理屬性數據的問題；2、在一定程度上也起到了擴充特征的作用。

import org.apache.spark.ml.feature.OneHotEncoder

val df = spark.createDataFrame(Seq(
  (0.0, 1.0),
  (1.0, 0.0),
  (2.0, 1.0),
  (0.0, 2.0),
  (0.0, 1.0),
  (2.0, 0.0)
)).toDF("categoryIndex1", "categoryIndex2")

val encoder = new OneHotEncoder()
  .setInputCols(Array("categoryIndex1", "categoryIndex2"))
  .setOutputCols(Array("categoryVec1", "categoryVec2"))
//   用於在 transform() 期間如何處理無效數據的參數。 選項是“keep”（無效數據顯示為額外的分類特征）或“error”（拋出錯誤）。 請注意，此參數僅在轉換期間使用； 在擬合過程中，無效數據將導致錯誤。 默認是error
//   .setHandleInvalid("keep")
//   是否刪除編碼向量中的最后一個類別（默認值：true） 
  .setDropLast(false)
val model = encoder.fit(df)

val encoded = model.transform(df)
encoded.show()

輸出：（稀疏矩陣）
+--------------+--------------+-------------+-------------+
|categoryIndex1|categoryIndex2| categoryVec1| categoryVec2|
+--------------+--------------+-------------+-------------+
|           0.0|           1.0|(3,[0],[1.0])|(3,[1],[1.0])|
|           1.0|           0.0|(3,[1],[1.0])|(3,[0],[1.0])|
|           2.0|           1.0|(3,[2],[1.0])|(3,[1],[1.0])|
|           0.0|           2.0|(3,[0],[1.0])|(3,[2],[1.0])|
|           0.0|           1.0|(3,[0],[1.0])|(3,[1],[1.0])|
|           2.0|           0.0|(3,[2],[1.0])|(3,[0],[1.0])|
+--------------+--------------+-------------+-------------+

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 特征變化--->標簽到向量的轉換（OneHotEncoder） Spark OneHotEncoder Spark ML 特征處理類之 VectorAssembler 向量裝配轉換器/VectorIndexer RF的特征子集選取策略（spark ml）任意進制轉換算法 Spark中ml和mllib的區別任意進制轉換算法 Spark ML協同過濾推薦算法字符串與數字互相轉換算法基於CPS變換的尾遞歸轉換算法