原文:文本分类学习(二)文本表示

接着上一篇。在正式的尝试使用文本分类算法分类文本的时候,我们得先准备两件事情: 一,准备适量的训练文本 二,选择合适的方法将这些训练文本进行表示 也就是将文本换一种方式表示 大家都知道文本其实就是很多词组成的文章啊。所以很自然的就想到用一系列词来表示文本。比如我这篇文章,将其分词之后的结果就是: 接着 , 上 , 一篇 , 在 , 正式 ........... 这里有很多分词工具可以办到,如果不知 ...

2018-03-31 16:58 1 1014 推荐指数:

查看详情

文本分类学习(六) AdaBoost和SVM

直接从特征提取,跳到了BoostSVM,是因为自己一直在写程序,分析垃圾文本,和思考文本分类用于识别垃圾文本的短处。自己学习文本分类就是为了识别垃圾文本。 中间的博客待自己研究透彻后再补上吧。 因为获取垃圾文本的时候,发现垃圾文本不是简单的垃圾文本,它们具有多个特性: 1. 种类繁多 ...

Wed May 09 00:18:00 CST 2018 0 1934
NLP文本分类学习笔记7.1:基于ERNIE的文本分类

ERNIE 相关链接:ERNIE官方使用介绍,ERNIE项目地址 基于transformer的encoder,主要思想是将文本中已有的知识融入到模型训练中,因此采用实体mask的方式(实体指人名,地名等词) 预训练 模型结构图如下所示 文本中已有的知识主要有人名,地名等实体,这些词本来 ...

Fri Apr 08 19:19:00 CST 2022 0 863
文本分类学习 (八)SVM 入门之线性分类

SVM 和线性分类器是分不开的。因为SVM的核心:高维空间中,在线性可分(如果线性不可分那么就使用核函数转换为更高维从而变的线性可分)的数据集中寻找一个最优的超平面将数据集分隔开来。 所以要理解SVM首先要明白的就是线性可分和线性分类器。 可以先解释这张图,通过这张图就可以了解线性 ...

Thu May 31 22:00:00 CST 2018 0 1461
文本分类学习(三) 特征权重(TF/IDF)和特征提取

上一篇中,主要说的就是词袋模型。回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示。首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的向量。这样每个文本在分词之后,就可以根据我们之前得到的词袋,构造成一个向量,词袋中有多少个词 ...

Tue Apr 03 19:50:00 CST 2018 0 8340
文本分类学习 (五) 机器学习SVM的前奏-特征提取(卡方检验续集)

前言: 上一篇比较详细的介绍了卡方检验和卡方分布。这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行。然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样就完美了。 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 ...

Mon Apr 23 18:51:00 CST 2018 3 5606
hanlp学习六:文本分类

一概念: 文本分类:将一个文档归类到一个或多个类别中的自然语言处理任务 类别即标签 多标签分类:一篇文档可能属于多个类别 二流程: a.人工标注文档的类别生成文本分类语料库 代码 ...

Mon Jan 27 05:04:00 CST 2020 0 1101
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM