花费 11 ms
数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码

一、问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 离散特征的编码分为两种情况:   1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码   2、离散特征的取值有大小的意义,比如size:[X,XL,XXL ...

Sat Jul 14 00:20:00 CST 2018 0 42144
文本离散表示(一):词袋模型(bag of words)

一、文本表示 文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。 文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文本表示。字级别(ch ...

Sun Mar 17 02:59:00 CST 2019 0 3974
文本离散表示(二):新闻语料的one-hot编码

上一篇博客介绍了文本离散表示的one-hot、TF-IDF和n-gram方法,在这篇文章里,我做了一个对新闻文本进行one-hot编码的小实践。 文本的one-hot相对而言比较简单,我用了两种方法,一种是自己造轮子,第二种是用深度学习框架keras来做。同时,我发现尽管sklearn可以实现 ...

Sun Mar 17 06:26:00 CST 2019 0 1151
【深度学习笔记】第 2 课:Logistic 多项式回归法

softmax模型可以用来给不同的对象分配概率。即使在之后,我们训练更加精细的模型时,最后一步也需要用softmax来分配概率。 cross-entropy 交叉熵是度量这两个向量距离的方法之一。我们将记它为D以表示距离。 labels标签向量经过了one-hot编码 ...

Sun Jan 22 23:56:00 CST 2017 0 1604
Deep learning with Python 学习笔记(5)

本节讲深度学习用于文本和序列 用于处理序列的两种基本的深度学习算法分别是循环神经网络(recurrent neural network)和一维卷积神经网络(1D convnet) 与其他所有神经网络 ...

Tue Nov 20 05:50:00 CST 2018 0 635

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM