标签【自然语言处理（NLP）】

原来你是这样的BERT，i了i了！ —— 超详细BERT介绍（一）BERT主模型的结构及其组件 BERT（Bidirectional Encoder Representations from Tra ...

gensim生成词向量并获取词向量矩阵 word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，但是调用gensim.models的word2vec模块使 ...

原来你是这样的BERT，i了i了！ —— 超详细BERT介绍（二）BERT预训练 BERT（Bidirectional Encoder Representations from Transforme ...

原来你是这样的BERT，i了i了！ —— 超详细BERT介绍（三）BERT下游任务 BERT（Bidirectional Encoder Representations from Transform ...

N-gram模型

N-gram模型（一）引言 N-gram是自然语言处理中常见一种基于统计的语言模型。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节 ...

最大匹配算法

中文分词：最大匹配算法（一）引言分词是自然语言处理中非常常见的操作，也是必不可少的文本数据预处理步骤。各国语言的表达方式和书写方式截然不同，因此分词的方式和难度也不同。英文分词是最简单的，因为 ...

文本的向量表示

文本的向量表示 1. 为什么需要文本的表示？文字是人类认知过程中产生的高层认知抽象实体，我们需要将其转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输入输出。 2. 词袋模 ...

文本可视化（词云）

文本可视化（词云图）（一）文本可视化种类（1）基于文本内容的可视化基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化，常用的有词云、分布图和 Document Ca ...

1. 维特比算法概述维特比算法是一个通用的解码算法，是基于动态规划的求序列最短路径的方法。第一个局部状态是在时刻$t$隐藏状态为$i$所有可能的状态转移路径$i_1,i_2,...i_t ...

NASIOCN文献NLP 命名实体识别实体分类分类实体解释实体标注前提我们针对的是全文的标注，抽出来的自然段，我们要进行逐一的分词分句（单词之间 ...