标签【nlp】 - 码上欢乐

自然语言处理(一) 关系抽取

Relation Extraction 信息抽取在自然语言处理中是一个很重要的工作，特别在当今信息爆炸的背景下，显得格外的生重要。从海量的非结构外的文本中抽取出有用的信息，并结构化成下游工作可用的格 ...

BERT解析及文本分类应用

目录前言 BERT模型概览 Seq2Seq Attention Transformer encoder部分 ...

NLP系列-中文分词（基于词典）

中文分词概述词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将 ...

1. 问题描述给你若干篇文档，找出这些文档中最相似的两篇文档？相似性，可以用距离来衡量。而在数学上，可使用余弦来计算两个向量的距离。 \[cos(\vec a, \vec b ...

word2vec及其python实现

　　词的向量化就是将自然语言中的词语映射成是一个实数向量，用于对自然语言建模，比如进行情感分析、语义分析等自然语言处理任务。下面介绍比较主流的两种词语向量化的方式：　　第一种即One-Hot编码， ...

##基础概念本文在进行文本相似度分析过程分为以下几个部分进行，文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba，gensim jieba: ...

内容介绍这篇博客主要面向对Bert系列在Pytorch上应用感兴趣的同学，将涵盖的主要内容是：Bert系列有关的论文，Huggingface的实现，以及如何在不同下游任务中使用预训练模型。看过 ...

使用Stanford Corenlp对中文进行词性标注语言为Scala，使用的jar的版本是3.6.0，而且是手动添加jar包，使用sbt添加其他版本的时候出现了各种各样的问题添加的jar包有5个代码 import edu.stanford.nlp ...

条件随机场（CRF）举例讲解

假设你有许多小明同学一天内不同时段的照片，从小明提裤子起床到脱裤子睡觉各个时间段都有（小明是照片控！）。现在的任务是对这些照片进行分类。比如有的照片是吃饭，那就给它打上吃饭的标签；有的照 ...

tree-lstm初探

https://zhuanlan.zhihu.com/p/35252733 可以先看看上面知乎文章里面的例子 Socher 等人于2012和2013年分别提出了两种区分词或短语类型的模型，即 ...