Label Encoding vs One Hot Encoding

本文转载自查看原文 2017-04-14 12:25 1581

最近在刷kaggle的时候碰到了两种处理类别型特征的方法：label encoding和one hot encoding。我从stackexchange, quora等网上搜索了相关的问题，总结如下。

label encoding在某些情况下很有用，但是场景限制很多。比如有一列 [dog,cat,dog,mouse,cat]，我们把其转换为[1,2,1,3,2]。这里就产生了一个奇怪的现象：dog和mouse的平均值是cat。而且像decision tree，random forest和xgboost这种算法能处理好这种转换，而且相比转换前，所需要的内存空间小一点。

one hot encoding的优点就是它的值只有0/1，不同的类型存储在垂直的空间。缺点就是，当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 One-Hot Encoding（独热编码）数据预处理：独热编码（One-Hot Encoding）【转】数据预处理之独热编码（One-Hot Encoding） one-hot encoding 对于一个特征包含多个特征id的一种处理方法机器学习之离散型特征处理--独热码（one_hot_encoding）数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码虚拟变量和独热编码的区别（Difference of Dummy Variable & One Hot Encoding）机器学习实战：数据预处理之独热编码（One-Hot Encoding） Pytorch下 label 的 one-hot 形式转换方法 vim encoding