无监督构建词库:更快更好的新词发现算法 原创: 苏剑林 PaperWeekly 4天前 作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 新词发现是 NLP 的基础任务之一,主要是希望通过无监督发掘一些语言特征 ...
一 专业领域的新词发现竞赛: AIIA 杯 国家电网 电力专业领域词汇挖掘 地址:https: www.datafountain.cn competitions datasets 二 新词发现,基于信息熵和词的凝合度算法 无预定义词库 参考文章:互联网时代的社会语言学:基于SNS的文本数据挖掘http: www.matrix .com blog archives 挖掘新词的传统方法是,先对文本进 ...
2020-02-07 18:05 0 943 推荐指数:
无监督构建词库:更快更好的新词发现算法 原创: 苏剑林 PaperWeekly 4天前 作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 新词发现是 NLP 的基础任务之一,主要是希望通过无监督发掘一些语言特征 ...
最近做了一些和gnn相关的工作,经常听到GCN 和 embedding 相关技术,感觉很是困惑,所以写下此博客,对相关知识进行索引和记录: 参考链接: https://www.toutiao.com/a6690680620642730510/ graph embedding 技术学习 ...
1. 什么是新词 现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如: 快的打车优惠券 英雄联盟怎么不可以打排位 “快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词 ...
互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。 N-Gram加词频 最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字 ...
互联网时代的社会语言学:基于SNS的文本数据挖掘 python实现 https://github.com/jtyoui/Jtyoui/tree/master/jtyoui/word 这是一个无监督 ...
字典树 原来讲明白了剩下的就是具体实现了,最适合存储和计算词频的数据结构就是字典树,这里给一个讲解的很清楚的链接 具体代码 代码已开源,需要的点击这个Github ...
webpack内存读取技术调研 最近参与到一个项目,需要在线上快速打包和快速读取,为了提高速率,当时我们想到了webpack dev模式下打包文件是临时贮存在内存中的,想学习一下webpack的这种技术是怎么实现的,好应用到项目中。 1.webpack原理 https://juejin.im ...
社区(community)定义:同一社区内的节点与节点之间关系紧密,而社区与社区之间的关系稀疏。 设图G=G(V,E),所谓社区发现是指在图G中确定nc(>=1)个社区C={C1,C2,...,Cnv},使得各社区的顶点集合构成V的一个覆盖。 若任意两个社区的顶点集合的交际均为空,则称C ...