倒排索引


一、倒排索引

建立索引時,將文檔分詞后生成Token,建立Token到文檔的映射,表示Token在這些文檔里出現過。

Token 文檔
token1 doc1、doc2
token2 doc2、doc3
token3 doc2、doc4

查詢時,將查詢文本分詞后生成Token,比如生成了token1、token2和token3,那么文檔doc2中含有查詢文本的3個分詞,而doc1僅含有查詢文本的1個分詞,因此doc1比doc2相關度高。

二、倒排索引的數據結構

  1. 關鍵詞的doc list
  2. 關鍵詞在每個doc中出現的次數(TF)
  3. 關鍵詞在整個索引中出現的次數(IDF)
  4. 關鍵詞在當前doc中出現的次數
  5. 每個doc的長度越長,相關度越低
  6. 包含整個關鍵詞的所有文檔的平均長度


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM