在ThoughtWorks经历过几个项目后,我从一个只会莽code的糙汉子变成了一个会写UT的糙汉子。写过UT,也写过集成测试,也实践过TDD,发现了一些有趣的地方,跟大家分享下。 一些基础的概念 ...
介绍 在使用elasticsearch进行搜索业务的时候,发现一篇和搜索关键字完全不匹配的文章排在最前面.打开它发现原来是这篇文章含有非常多的 的 这个无意义的词.而我的搜索关键字假设为 历史上的 今天 ,它可能就被ik max word分词后,刚好就有 的 这个词.所以会造成一篇含有很多 的 的文章,即使跟搜索关键字无关,也可能得分很高,排在前面. 那么我们需要做的就是如何对这些无意义的词 停用 ...
2019-11-28 15:25 0 1081 推荐指数:
在ThoughtWorks经历过几个项目后,我从一个只会莽code的糙汉子变成了一个会写UT的糙汉子。写过UT,也写过集成测试,也实践过TDD,发现了一些有趣的地方,跟大家分享下。 一些基础的概念 ...
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch的停用词 1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响 ...
目录 一、停用词 stopwords 1、查看停用词 2、停用词过滤 二、罕见词 一、停用词 stopwords 停用词:跟要做的实际主题不相关的文本,在 NPL任务中(信息检索、分类)毫无意义;通常情况下,冠词 和 代词都会 ...
本期推荐:【云享人物·大咖面对面】华为云首席产品官方国伟独家专访:当下云发展有待突破的并不是技术问题;现在为什么是#华为云# 的最佳时机;以不变应万变,什么是云产品规划的三个关键出发点;生态对于云的意义是什么? 戳此处,一起来听技术大咖聊聊云的故事。 听说现在大学生也卷起来了?原本 ...
Solr5.5.5版本+IK Analysis的词典及同义词配置 我的Solr5.5.5是采用Jetty方法进行配置的 主要是配置三个文件 /usr/solr/solr-5.5.5/server/solr/mycore(自己定义的core)/conf/schema.xml ...
最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug,这里建议 ...
@Test // 測试分词的效果,以及停用词典是否起作用 public void test() throws IOException { String text = "老爹我们都爱您。"; Configuration configuration ...
https://zhuanlan.zhihu.com/p/103474691 在《狗屁工作(Bullshit Jobs)》一书中,伦敦经济学院的人类学家 David Graeber研究发现社会中毫无意义、甚至是有害的工作占了所有工作的一半以上,这种狗屁工作到处都是,还在不断膨胀。书中引用 ...