前提
什么是倒排索引?
Elasticsearch之分詞器的作用
Elasticsearch之分詞器的工作流程
Elasticsearch的停用詞
1、有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響。
2、英文
a、an、the、of
3、中文
的、了、着、是 、標點符號等
4、文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。
5、在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
6、排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
7、英文停用詞
8、中文停用詞
http://www.ranks.nl/stopwords/chinese-stopwords
后續博客
Elasticsearch之中文分詞器