原文:自然语言处理4-5:语言模型之平滑操作

为什么需要平滑操作 假设有一个预料集 这个时候要计算 我喜欢喝咖啡 的概率 假设我们用bi gram模型来计算,也就是说 P 我喜欢喝咖啡 P 我 P 喜欢 我 P 喝 喜欢 P 咖啡 喝 但是我们都容易感觉出来, 我喜欢喝咖啡 是符合语言习惯的句子,也就是说,虽然现在的语料库中没有这个句子,但是将来也有可能出现,但是我们算出的这个句子出现的概率是 ,这不符合常识。因为语料库中没有出现 喝 后面接 ...

2020-09-23 20:50 0 601 推荐指数:

查看详情

用tensorflow实现自然语言处理——基于循环神经网络的神经语言模型

自然语言处理和图像处理不同,作为人类抽象出来的高级表达形式,它和图像、声音不同,图像和声音十分直觉,比如图像的像素的颜色表达可以直接量化成数字输入到神经网络中,当然如果是经过压缩的格式jpeg等必须还要经过一个解码的过程才能变成像素的高阶矩阵的形式,而自然语言则不同,自然语言和数字之间没有那么直接 ...

Fri Nov 23 04:44:00 CST 2018 1 993
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)

自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT) 最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT ...

Sun Oct 21 18:59:00 CST 2018 18 37251
自然语言处理之LDA主题模型

1、LDA概述   在机器学习领域,LDA是两个常用模型的简称:线性判别分析(Linear Discriminant Analysis)和 隐含狄利克雷分布(Latent Dirichlet Allocation)。本文的LDA仅指代Latent Dirichlet Allocation. ...

Wed Jul 25 01:47:00 CST 2018 0 795
自然语言处理之HMM模型分词

汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。 基于规则的分词是一种机械分词,主要依赖于维护词典,在切 ...

Mon Apr 27 06:22:00 CST 2020 0 692
Python自然语言处理---TF-IDF模型

。   经典的信息检索模型包括布尔模型,向量模型,TF-IDF模型。布尔模型以集合的布尔运算为基础,查询效率 ...

Thu Feb 23 04:08:00 CST 2017 4 11700
自然语言处理基础:HMM与CRF模型比较

一、HMM模型 1.HMM模型的原理? 马尔科夫假设:当前状态仅与上一个状态有关; 观测独立性假设: 任意时刻的观察状态仅仅依赖于当前时刻的隐藏状态 图中Q是状态序列,O是观察序列 举例:词性标注【我爱美丽的中国】 状态 ...

Sun Apr 19 02:34:00 CST 2020 0 1030
自然语言处理----词袋模型

词袋模型是一种表征文本数据的方法,可以从文本数据中提取出特征并用向量表示.词袋模型主要包括两件事 构建词汇表 确定度量单词出现的方法 词袋模型不考虑单词在文本中出现的顺序,只考虑单词是否出现. 具体以"双城记"开头为例 收集数据 构建词汇表 对于上面四个 ...

Sat Jun 27 20:42:00 CST 2020 0 573
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM