Elasticsearch之停用詞


 

 前提

什么是倒排索引?

Elasticsearch之分詞器的作用

Elasticsearch之分詞器的工作流程

 

 

 

 

 

 

 

Elasticsearch的停用詞

  1、有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響。

  2、英文

    a、an、the、of

  3、中文

    的、了、着、是 、標點符號等

  4、文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。

  5、在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。

  6、排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。

  7、英文停用詞

         http://www.ranks.nl/stopwords

  8、中文停用詞

          http://www.ranks.nl/stopwords/chinese-stopwords

 

 

 

 

  

 

 

  后續博客

Elasticsearch之中文分詞器

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM