原文:吴恩达《深度学习》第五门课(2)自然语言处理与词嵌入

. 词汇表征 使用one hot方法表示词汇有两个主要的缺点,以 个词为例,每个单词需要用 维来表示,而且只有一个数是零,其他维度都是 ,造成表示非常冗余,存储量大 第二每个单词表示的向量相乘都为零 正交 ,导致没能够表示是词汇之间的联系,比如oriange和apple,queen和king应该是联系比价紧密的,但是用上面的词典表示无法体现出这一点。 使用新的特征表示法,如下图所示,特征比如有性 ...

2018-07-22 19:22 2 1340 推荐指数:

查看详情

13.深度学习(嵌入)与自然语言处理--HanLP实现

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 13. 深度学习自然语言处理 13.1 传统方法的局限 前面已经讲过了隐马尔可夫模型、感知机、条件随机场、朴素贝叶斯模型、支持向量机等传统机器学习模型 ...

Thu Feb 20 06:49:00 CST 2020 2 1473
深度学习第五(1)循环序列模型(RNN)

1.1为什么选择序列模型 (1)序列模型广泛应用于语音识别,音乐生成,情感分析,DNA序列分析,机器翻译,视频行为识别,命名实体识别等众多领域。 (2)上面那些问题可以看成使用(x,y)作为训练集的监督学习,但是输入与输出的对应关系有非常多的组合,比如一对一,多对多,一对多 ...

Sun Jul 22 00:02:00 CST 2018 0 1457
自然语言处理——向量词嵌入

1   传统方式的缺点   使用索引的方式无法表达之间的相似性,n元模型在很多场合难以取得明显的进步和表现。one-hot存在维度方面的问题以及无法表示和短语之间的相似性。   WordNet:   WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立 ...

Fri May 24 08:46:00 CST 2019 0 751
自然语言处理——的表示

1、向量(Word Vectors) 英语中大约有13亿个符号,从Feline(猫科动物)到cat(猫),hotel(旅馆)到motel(汽车旅馆),很明显它们之间是有关联的。我们需要将单词一一编码到向量中,一个向量表示了空间中的一个点。 最简单的一种向量就是one-hot向量:将每个 ...

Sat Jun 02 22:17:00 CST 2018 0 2252
自然语言处理(六)向量

目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计 一、编码方式1——离散表示 1、One-hot编码 和句子中顺序无关,耗空间耗时 2、袋模型 每个数表示该词出现的次数(One-hot的加和) 3、TF_IDF 每个数代表该词在整个文档中的占比 4、N-gram ...

Thu Jul 27 06:30:00 CST 2017 0 1259
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM