花费 8 ms
自然语言处理(一) 关系抽取

Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作,特别在当今信息爆炸的背景下,显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格 ...

2019-03-11 14:36 0 12960
NLP系列-中文分词(基于词典)

中文分词概述 词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将 ...

2018-09-22 00:59 3 9110
向量空间模型(Vector Space Model)的理解

1. 问题描述 给你若干篇文档,找出这些文档中最相似的两篇文档? 相似性,可以用距离来衡量。而在数学上,可使用余弦来计算两个向量的距离。 \[cos(\vec a, \vec b ...

2018-04-02 04:53 1 11407
word2vec及其python实现

  词的向量化就是将自然语言中的词语映射成是一个实数向量,用于对自然语言建模,比如进行情感分析、语义分析等自然语言处理任务。下面介绍比较主流的两种词语向量化的方式:   第一种即One-Hot编码, ...

2020-03-23 08:08 3 7463
文本相似度分析(基于jieba和gensim)

##基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba: ...

2019-04-13 22:23 0 6155
Stanford Corenlp学习笔记——词性标注

使用Stanford Corenlp对中文进行词性标注 语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题 添加的jar包有5个 代码 import edu.stanford.nlp ...

2017-05-14 07:30 0 9623
条件随机场(CRF) 举例讲解

假设你有许多小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照 ...

2019-01-04 19:26 0 4319
tree-lstm初探

https://zhuanlan.zhihu.com/p/35252733 可以先看看上面知乎文章里面的例子 Socher 等人于2012和2013年分别提出了两种区分词或短语类型的模型,即 ...

2018-12-24 19:37 0 4358

 
粤ICP备18138465号  © 2018-2024 CODEPRJ.COM