倒排索引


一、倒排索引

建立索引时,将文档分词后生成Token,建立Token到文档的映射,表示Token在这些文档里出现过。

Token 文档
token1 doc1、doc2
token2 doc2、doc3
token3 doc2、doc4

查询时,将查询文本分词后生成Token,比如生成了token1、token2和token3,那么文档doc2中含有查询文本的3个分词,而doc1仅含有查询文本的1个分词,因此doc1比doc2相关度高。

二、倒排索引的数据结构

  1. 关键词的doc list
  2. 关键词在每个doc中出现的次数(TF)
  3. 关键词在整个索引中出现的次数(IDF)
  4. 关键词在当前doc中出现的次数
  5. 每个doc的长度越长,相关度越低
  6. 包含整个关键词的所有文档的平均长度


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM