一、倒排索引
建立索引時,將文檔分詞
后生成Token,建立Token到文檔的映射,表示Token在這些文檔里出現過。
Token | 文檔 |
---|---|
token1 | doc1、doc2 |
token2 | doc2、doc3 |
token3 | doc2、doc4 |
查詢時,將查詢文本分詞后生成Token,比如生成了token1、token2和token3,那么文檔doc2中含有查詢文本的3個分詞,而doc1僅含有查詢文本的1個分詞,因此doc1比doc2相關度高。
二、倒排索引的數據結構
- 關鍵詞的doc list
- 關鍵詞在每個doc中出現的次數(TF)
- 關鍵詞在整個索引中出現的次數(IDF)
- 關鍵詞在當前doc中出現的次數
- 每個doc的長度越長,相關度越低
- 包含整個關鍵詞的所有文檔的平均長度