标签【自然语言处理(NLP)】

图示详解BERT模型的输入与输出

一、BERT整体结构 BERT主要用了Transformer的Encoder，而没有用其Decoder，我想是因为BERT是一个预训练模型，只要学到其中语义关系即可，不需要去解码完成具体 ...

一、背景介绍　　BERT和RoBERTa在文本语义相似度等句子对的回归任务上，已经达到了SOTA的结果。但是，它们都需要把两个句子同时喂到网络中，这样会导致巨大的计算开销：从10000个句子中找出 ...

P-R曲线及与ROC曲线区别

一、P-R曲线 P-R曲线刻画查准率和查全率之间的关系，查准率指的是在所有预测为正例的数据中，真正例所占的比例，查全率是指预测为真正例的数据占所有正例数据的比例。即：查准率P=TP／(TP ...

LN和BN对比

一、图示两种方式的不同 LN：Layer Normalization，LN是“横”着来的，对一个样本，不同的神经元neuron间做归一化。 BN：Batch Normalization，BN是“竖 ...

python之NLP数据清洗

1、知识点 2、中文数据清洗(使用停用词) 3、英文数据清洗(使用停用词) 4、nltk的停用词进行数据清洗 ...

python之NLP词性标注

1、知识点 2、代码 ...

CRF++进行中文分词实例

工具包：https://taku910.github.io/crfpp/#tips 语料：http://sighan.cs.uchicago.edu/bakeoff2005/ 安装： 1）下载l ...

Layer Normalization

一、Layer Normalization公式 1）计算各层的期望μ和标注差σ l表示第l个隐藏层，H表示该层的节点数，a表示某一个节点在激活前的值，即a=w*x。 2）标准化 g和b ...

CRF原理解读

概率有向图又称为贝叶斯网络，概率无向图又称为马尔科夫网络。具体地，他们的核心差异表现在如何求，即怎么表示这个的联合概率。概率图模型的优点：提供了一个简单的方式将概率模 ...

GRU模型结构

一、概述： GRU(Gate Recurrent Unit)是LSTM网络的一种效果很好的变体，它较LSTM网络的结构更加简单，而且效果也很好，因此也是当前非常流形的一种网络。GRU既然是LSTM的 ...