python實現搜索功能


使用haystack實現django全文檢索搜索引擎功能

前言

django是python語言的一個web框架,功能強大。配合一些插件可為web網站很方便地添加搜索功能。

搜索引擎使用whoosh,是一個純python實現的全文搜索引擎,小巧簡單。

中文搜索需要進行中文分詞,使用jieba。

直接在django項目中使用whoosh需要關注一些基礎細節問題,而通過haystack這一搜索框架,可以方便地在django中直接添加搜索功能,無需關注索引建立、搜索解析等細節問題。

haystack支持多種搜索引擎,不僅僅是whoosh,使用solr、elastic search等搜索,也可通過haystack,而且直接切換引擎即可,甚至無需修改搜索代碼。

配置搜索

1.安裝相關包

pip install django-haystack
pip install whoosh
pip install jieba

2.配置django的settings

修改settings.py文件,添加haystack應用:

INSTALLED_APPS = (
...
'haystack', #將haystack放在最后
)
在settings中追加haystack的相關配置:

HAYSTACK_CONNECTIONS = {
'default': {
'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',
'PATH': os.path.join(BASE_DIR, 'whoosh_index'),
}
}

# 添加此項,當數據庫改變時,會自動更新索引,非常方便
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

3.添加url

在整個項目的urls.py中,配置搜索功能的url路徑:

urlpatterns = [
...
url(r'^search/', include('haystack.urls')),
]

4.在應用目錄下,添加一個索引

在子應用的目錄下,創建一個名為 search_indexes.py 的文件。

from haystack import indexes
# 修改此處,為你自己的model
from models import GoodsInfo

# 修改此處,類名為模型類的名稱+Index,比如模型類為GoodsInfo,則這里類名為GoodsInfoIndex
class GoodsInfoIndex(indexes.SearchIndex, indexes.Indexable):
text = indexes.CharField(document=True, use_template=True)

def get_model(self):
# 修改此處,為你自己的model
return GoodsInfo

def index_queryset(self, using=None):
return self.get_model().objects.all()
說明:
1)修改上文中三處注釋即可
2)此文件指定如何通過已有數據來建立索引。get_model處,直接將django中的model放過來,便可以直接完成索引啦,無需關注數據庫讀取、索引建立等細節。
3)text=indexes.CharField一句,指定了將模型類中的哪些字段建立索引,而use_template=True說明后續我們還要指定一個模板文件,告知具體是哪些字段

5.指定索引模板文件

在項目的“templates/search/indexes/應用名稱/”下創建“模型類名稱_text.txt”文件。

例如,上面的模型類名稱為GoodsInfo,則創建goodsinfo_text.txt(全小寫即可),此文件指定將模型中的哪些字段建立索引,寫入如下內容:(只修改中文,不要改掉object)

{{ object.字段1 }}
{{ object.字段2 }}
{{ object.字段3 }}

6.指定搜索結果頁面

在templates/search/下面,建立一個search.html頁面。

<!DOCTYPE html>
<html>
<head>
<title></title>
</head>
<body>
{% if query %}
<h3>搜索結果如下:</h3>
{% for result in page.object_list %}
<a href="/{{ result.object.id }}/">{{ result.object.gName }}</a><br/>
{% empty %}
<p>啥也沒找到</p>
{% endfor %}

{% if page.has_previous or page.has_next %}
<div>
{% if page.has_previous %}<a href="?q={{ query }}&amp;page={{ page.previous_page_number }}">{% endif %}&laquo; 上一頁{% if page.has_previous %}</a>{% endif %}
|
{% if page.has_next %}<a href="?q={{ query }}&amp;page={{ page.next_page_number }}">{% endif %}下一頁 &raquo;{% if page.has_next %}</a>{% endif %}
</div>
{% endif %}
{% endif %}
</body>
</html>

7.使用jieba中文分詞器

在haystack的安裝文件夾下,路徑如“/home/python/.virtualenvs/django_py2/lib/python2.7/site-packages/haystack/backends”,建立一個名為ChineseAnalyzer.py的文件,寫入如下內容:

import jieba
from whoosh.analysis import Tokenizer, Token


class ChineseTokenizer(Tokenizer):
def __call__(self, value, positions=False, chars=False,
keeporiginal=False, removestops=True,
start_pos=0, start_char=0, mode='', **kwargs):
t = Token(positions, chars, removestops=removestops, mode=mode,
**kwargs)
seglist = jieba.cut(value, cut_all=True)
for w in seglist:
t.original = t.text = w
t.boost = 1.0
if positions:
t.pos = start_pos + value.find(w)
if chars:
t.startchar = start_char + value.find(w)
t.endchar = start_char + value.find(w) + len(w)
yield t


def ChineseAnalyzer():
return ChineseTokenizer()

8.切換whoosh后端為中文分詞

將上面backends目錄中的whoosh_backend.py文件,復制一份,名為whoosh_cn_backend.py,然后打開此文件,進行替換:

# 頂部引入剛才添加的中文分詞
from .ChineseAnalyzer import ChineseAnalyzer

# 在整個py文件中,查找
analyzer=StemmingAnalyzer()
全部改為改為
analyzer=ChineseAnalyzer()
總共大概有兩三處吧

9.生成索引

手動生成一次索引:

python manage.py rebuild_index

10.實現搜索入口

在網頁中加入搜索框:

<form method='get' action="/search/" target="_blank">
<input type="text" name="q">
<input type="submit" value="查詢">
</form>

豐富的自定義

上面只是快速完成一個基本的搜索引擎,haystack還有更多可自定義,來實現個性化的需求。

參考官方文檔:http://django-haystack.readthedocs.io/en/master/

自定義搜索view
上面的配置中,搜索相關的請求被導入到haystack.urls中,如果想自定義搜索的view,實現更多功能,可以修改。

haystack.urls中內容其實很簡單,

from django.conf.urls import url
from haystack.views import SearchView

urlpatterns = [
url(r'^$', SearchView(), name='haystack_search'),
]
那么,我們寫一個view,繼承自SearchView,即可將搜索的url導入到自定義view中處理啦。

class MySearchView(SearchView):
# 重寫相關的變量或方法
template = 'search_result.html'
查看SearchView的源碼或文檔,了解每個方法是做什么的,便可有針對性地進行修改。
比如,上面重寫了template變量,修改了搜索結果頁面模板的位置。

高亮
在搜索結果頁的模板中,可以使用highlight標簽(需要先load一下)

{% highlight <text_block> with <query> [css_class "class_name"] [html_tag "span"] [max_length 200] %}
text_block即為全部文字,query為高亮關鍵字,后面可選參數,可以定義高亮關鍵字的html標簽、css類名,以及整個高亮部分的最長長度。

高亮部分的源碼位於 haystack/templatetags/lighlight.py 和 haystack/utils/lighlighting.py文件中,可復制進行修改,實現自定義高亮功能。

ref.
http://django-haystack.readthedocs.io/en/master/
http://blog.csdn.net/ac_hell/article/details/52875927

 

 

在Python的Flask框架中實現全文搜索功能

灰常不幸的是,關系型數據庫對全文檢索的支持沒有被標准化。不同的數據庫通過它們自己的方式來實現全文檢索,而且SQLAlchemy在全文檢索上也沒有提供一個好的抽象。

我們現在使用SQLite作為我們的數據庫,所以我們可以繞開SQLAlchemy而使用SQLite提供的工具來創建一個全文檢索索引。但這么做不怎么好,因為如果有一天我們換用別的數據庫,那么我們就得重寫另一個數據庫的全文檢索方法。

所以我們的方案是,我們將讓我們現有的數據庫處理常規數據,然后我們創建一個專門的數據庫來解決全文檢索。


只有很少的開源的全文檢索引擎。據我說知只有一個Whoosh提供了Flask的擴展,它是用Python語言寫的全文檢索引擎。使用純Python引擎的優點是它可以運行在任何有Python解釋器的地方。缺點就是它的搜索性能沒有達到用C或者C++寫的搜索引擎那么好。在我的腦子里理想的解決方案是有一個搜索引擎,它提供了Flask的擴展,能連接大多數數據庫,而且還要像Flask-SQLAlchemy那樣提供一個能自由使用大多數數據庫的方法,但現在貌似木有這樣的全文檢索引擎。Django的開發者有一個非常棒的,支持大多數全文檢索引擎的擴展,叫django-haystack。希望有一天某個家伙能為Flask提供一個相似的擴展。


但現在,我們將通過Whoosh實現我們自己的全文檢索。我們將使用Flask-WhooshAlchemy擴展,該擴展使得Whoosh數據庫和Flask-SQLAlchemy模塊結合起來。

如果你還沒在你的虛擬環境中安裝Flask-WhooshAlchemy擴展,馬上安裝它。

Windows用戶用以下命令安裝:


flask\Scripts\pip install Flask-WhooshAlchemy
其他用戶用以下命令安裝:


flask/bin/pip install Flask-WhooshAlchemy

配置

配置Flask-WhooshAlchemy灰常簡單。我們只需要告訴擴展全文檢索數據庫的名字即可(fileconfig.py):

WHOOSH_BASE = os.path.join(basedir, 'search.db')

修改模塊

在將Flask-WhooshAlchemy和Flask-SQLAlchemy結合起來時,我們需要在合適的模塊類(fileapp/models.py)指定哪些數據時需要被索引的:

from app import app
import flask.ext.whooshalchemy as whooshalchemy

class Post(db.Model):
__searchable__ = ['body']

id = db.Column(db.Integer, primary_key = True)
body = db.Column(db.String(140))
timestamp = db.Column(db.DateTime)
user_id = db.Column(db.Integer, db.ForeignKey('user.id'))

def __repr__(self):
return '<Post %r>' % (self.text)

whooshalchemy.whoosh_index(app, Post)
這個模塊有一個新的__searchable__字段,它是一個列表,包括了所有可以被當做搜索索引的數據庫字段。在我們的項目里我們只需要所有文章帖子的body字段。

在這個模塊中,我們也必須通過調用whoosh_index這個方法來初始化全文索引。

這不是一個能影響我們關系型數據庫的改變,所以我們沒必要換新的數據庫。

不幸的是所有的博客文章在添加全文檢索引擎之前就已經存在於數據庫中了,而且沒有被索引。為了保持數據庫和全文檢索引擎的同步,我們將在數據庫中刪除所有已經存在的博客文章,然后重新開始。首先我們打開Python解釋器。Windows用戶為以下內容:

flask\Scripts\python
其它操作系統用戶:

flask/bin/python
然后在Python命令提示符中刪除所有博客文章:

>>> from app.models import Post
>>> from app import db
>>> for post in Post.query.all():
... db.session.delete(post)
>>> db.session.commit()
搜索

現在我們開始做搜索。首先,讓我們添加幾篇博客文章到數據庫。我們有兩種方法做這個事。我們可以像普通用戶一樣通過網頁打開應用程序添加文章,或者直接在Python命令行里添加。

用一下方法從命令行添加:

>>> from app.models import User, Post
>>> from app import db
>>> import datetime
>>> u = User.query.get(1)
>>> p = Post(body='my first post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> p = Post(body='my second post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> p = Post(body='my third and last post', timestamp=datetime.datetime.utcnow(), author=u)
>>> db.session.add(p)
>>> db.session.commit()
Flask-WhooshAlchemy這個擴展非常不錯,因為它能連接Flask-SQLAlchemy然后自動提交。我們不需要維護全文索引,因為它已經很明顯的幫我們做了這件事。


現在我們已經在全文索引中有了一些文章,我們可以搜搜看了:

>>> Post.query.whoosh_search('post').all()
[<Post u'my second post'>, <Post u'my first post'>, <Post u'my third and last post'>]
>>> Post.query.whoosh_search('second').all()
[<Post u'my second post'>]
>>> Post.query.whoosh_search('second OR last').all()
[<Post u'my second post'>, <Post u'my third and last post'>]
上面的例子可以看出,查詢不需要限制為一個單詞。實際上,Whoosh提供了一個漂亮又強大的搜索查詢語言(search query language)。

整合全文檢索到應用程序

為了讓我們應用程序的用戶能用上搜索功能,我們還需要增加一點小小的改變。

配置

就配置而言,我們僅僅需要指定最大的搜索結果返回數(fileconfig.py):

MAX_SEARCH_RESULTS = 50

搜索表單

我們需要在頁面頂部的導航欄中增加一個搜索框。把搜索框放到頂部是極好的,因為這樣所有頁面就都有搜索框了(注:所有頁面公用導航欄)。

首先我們增加一個搜索表單類(fileapp/forms.py):

class SearchForm(Form):
search = TextField('search', validators = [Required()])
然后我們需要增加一個搜索表單對象,而且要讓它對所有模板可用,這么做是因為我們要將搜索表單放到所有頁面的共同的導航欄。完成這個最簡單的方法是在before_request handler上創建一個form,然后將它傳到Flask的全局變量g(fileapp/views.py):

@app.before_request
def before_request():
g.user = current_user
if g.user.is_authenticated():
g.user.last_seen = datetime.utcnow()
db.session.add(g.user)
db.session.commit()
g.search_form = SearchForm()
然后我們添加form到我們的模板(fileapp/templates/base.html):


<div>Microblog:
<a href="{{ url_for('index') }}">Home</a>
{% if g.user.is_authenticated() %}
| <a href="{{ url_for('user', nickname = g.user.nickname) }}">Your Profile</a>
| <form style="display: inline;" action="{{url_for('search')}}" method="post" name="search">{{g.search_form.hidden_tag()}}{{g.search_form.search(size=20)}}<input type="submit" value="Search"></form>
| <a href="{{ url_for('logout') }}">Logout</a>
{% endif %}
</div>
注意,我們只是當有用戶登錄時才會顯示這個搜索框。同樣的,before_request handler只有在有用戶登錄時才會創建form,這是因為我們的應用程序不會展示任何內容給沒有經過認證的用戶。

搜索顯示方法(search view funciton)

上面我們已經設置了form的action字段,它會發送所有的搜索請求到search view方法。這就是我們要執行全文檢索查詢的地方(fileapp/views.py):

@app.route('/search', methods = ['POST'])
@login_required
def search():
if not g.search_form.validate_on_submit():
return redirect(url_for('index'))
return redirect(url_for('search_results', query = g.search_form.search.data))
這個方法干的事也不是很多,它只是從表單收集了搜索查詢的字段,然后把這些字段作為參數傳給查詢方法,最后重定向到另一個頁面。不在這兒直接做查詢的原因是如果一個用戶點擊了刷新按鈕,那么瀏覽器就會彈出“表單數據將被重新提交”的警告窗口。所以當一個POST請求的響應結果為重定向的時候,這種警告提示就被避免了,因為重定向之后瀏覽器的刷新按鈕將會在重定向的頁面被重新載入。


搜索結果頁面

一旦一個查詢字段被接受,form POST handler就會通過頁面重定向把它發送到search_result handler(fileapp/views.py):

@app.route('/search_results/<query>')
@login_required
def search_results(query):
results = Post.query.whoosh_search(query, MAX_SEARCH_RESULTS).all()
return render_template('search_results.html',
query = query,
results = results)
然后搜索結果顯示方法會發送這個查詢到Whoosh,參數是最大的搜索結果數目,因為我們不想呈現一個很大數目的結果頁面,所以我們只顯示前50條數據。


最后一部分需要完成的是搜索結果的模板(fileapp/templates/search_results.html):

<!-- extend base layout -->
{% extends "base.html" %}

{% block content %}
<h1>Search results for "{{query}}":</h1>
{% for post in results %}
{% include 'post.html' %}
{% endfor %}
{% endblock %}
這兒,我們又可以重新使用我們的post.html頁面,所以我們不用擔心替換一個新的頁面或者其他格式的頁面元素,因為所有這些在sub-template中都是通用的方法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM