上一篇是使用的solr,這篇主要介紹使用whoosh
基於djang-haystack,咱們可以自由切換搜索引擎了。
whoosh 的使用跟solr 基本一樣 ,模板使用什么的都是一樣的,主要是對whoosh 進行一些修改,讓其支持中文。
settings.py 的配置
HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine', 'PATH': os.path.join(os.path.dirname(__file__), 'whoosh_index'), }, }
這里邊使用主要參考http://blog.csdn.net/wenxuansoft/article/details/8170714 這篇文章,他給出了實際操作方法,很感謝啊。
創建中文分析ChineseAnalyzer.py,保存到haystack的安裝文件夾\Lib\site-packages\haystack\backends里面。內容如下:
import jieba from whoosh.analysis import RegexAnalyzer from whoosh.analysis import Tokenizer,Token class ChineseTokenizer(Tokenizer): def __call__(self, value, positions=False, chars=False, keeporiginal=False, removestops=True, start_pos=0, start_char=0, mode='', **kwargs): #assert isinstance(value, text_type), "%r is not unicode" % value t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs) seglist=jieba.cut(value,cut_all=True) for w in seglist: t.original = t.text = w t.boost = 1.0 if positions: t.pos=start_pos+value.find(w) if chars: t.startchar=start_char+value.find(w) t.endchar=start_char+value.find(w)+len(w) yield t def ChineseAnalyzer(): return ChineseTokenizer()
然后將\Lib\site-packages\haystack\backends里面的whoosh_backend.py復制為whoosh_cn_backend.py,
打開whoosh_cn_backend.py進行修改。如下:
#在whoosh_cn_backend.py里面 ......... from ChineseAnalyzer import ChineseAnalyzer ............. #然后找到build_schema函數處,這是一個構建分詞模式的 #找到 schema_fields[field_class.index_fieldname] = TEXT(stored=True, analyzer=StemmingAnalyzer(), field_boost=field_class.boost)
將analyzer = StemmingAnalyzer() 更改為 analyzer = ChineseAnalyzer()
這樣就算完工了。
運行
python manage.py rebuild_index 創建索引
python manage.py runserver 運行
打開瀏覽器 http://127.0.0.1:8000 搜索試試。