閱讀博客http://blog.jobbole.com/74881/的筆記
在數據庫有外鍵的時候,使用select_related()和prefetch_related()可以很好的減少數據庫請求的次數,從而提高性能.
下面是數據庫設計圖
models.py如下:
from django.db import models class Province(models.Model): name = models.CharField(max_length=10) def __unicode__(self): return self.name class City(models.Model): name = models.CharField(max_length=5) province = models.ForeignKey(Province) def __unicode__(self): return self.name class Person(models.Model): firstname = models.CharField(max_length=10) lastname = models.CharField(max_length=10) visitation = models.ManyToManyField(City, related_name = "visitor") hometown = models.ForeignKey(City, related_name = "birth") living = models.ForeignKey(City, related_name = "citizen") def __unicode__(self): return self.firstname + self.lastname
app名為"QSOptimize"
`qsoptimize_province` 表中只有2條數據:湖北省和廣東省,`qsoptimize_city`表中只有三條數據:武漢市、十堰市和廣州市
select_related()
對於一對一字段(OneToOneField)和外鍵字段(ForeignKey),可以使用select_related()來對QuerySet進行優化.
在對QuerySet使用select_related()函數后,Django會獲取相應外鍵對應的對象,從而在之后需要的時候不必再查詢數據庫了。
一個例子:
>>> citys = City.objects.all() >>> for c in citys: ... print c.province
這樣會導致線性的SQL查詢,SQL查詢語句如下:
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`id` = 1 ; SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`id` = 2 ; SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`id` = 1 ;
使用select_related()函數后
>>> citys = City.objects.select_related().all() >>> for c in citys: ... print c.province
就只有一次SQL查詢,大大減少SQL查詢次數
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM`QSOptimize_city` INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) ;
django使用了INNER JOIN來獲得省份的信息.
使用方法
select_related() 接受可變長參數,每個參數是需要獲取的外鍵(父表的內容)的字段名,以及外鍵的外鍵的字段名、外鍵的外鍵的外鍵…。若要選擇外鍵的外鍵需要使用兩個下划線“__”來連接。
例如獲得張三的現居省份
>>> zhangs = Person.objects.select_related('living__province').get(firstname=u"張",lastname=u"三") >>> zhangs.living.province
觸發的SQL:
SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`, `QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`, `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_person` INNER JOIN `QSOptimize_city` ON (`QSOptimize_person`.`living_id` = `QSOptimize_city`.`id`) INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '張' );
django使用了兩次INNER JOIN來完成請求,但是未指定的外鍵則不會被添加到結果中,例如張三的故鄉.
django1.7以前同時指定兩個外鍵使用
zhangs = Person.objects.select_related('hometown__province','living__province').get(firstname=u"張",lastname=u"三")
1.7后使用
zhangs = Person.objects.select_related('hometown__province').select_related('living__province').get(firstname=u"張",lastname=u"三")
depth參數
select_related() 接受depth參數,depth參數可以確定select_related的深度。Django會遞歸遍歷指定深度內的所有的OneToOneField和ForeignKey.
zhangs = Person.objects.select_related(depth = d)
d=1 相當於 select_related(‘hometown’,'living’)
d=2 相當於 select_related(‘hometown__province’,'living__province’)
無參數
select_related() 也可以不加參數,這樣表示要求Django盡可能深的select_related。例如:zhangs = Person.objects.select_related().get(firstname=u”張”,lastname=u”三”)。但要注意兩 點:
- Django本身內置一個上限,對於特別復雜的表關系,Django可能在你不知道的某處跳出遞歸,從而與你想的做法不一樣。具體限制是怎么工作的我表示不清楚。
- Django並不知道你實際要用的字段有哪些,所以會把所有的字段都抓進來,從而會造成不必要的浪費而影響性能。
小結
- select_related主要針一對一和多對一關系進行優化。
- select_related使用SQL的JOIN語句進行優化,通過減少SQL查詢的次數來進行優化、提高性能。
- 可以通過可變長參數指定需要select_related的字段名。也可以通過使用雙下划線“__”連接字段名來實現指定的遞歸查詢。沒有指定的字段不會緩存,沒有指定的深度不會緩存,如果要訪問的話Django會再次進行SQL查詢。
- 也可以通過depth參數指定遞歸的深度,Django會自動緩存指定深度內所有的字段。如果要訪問指定深度外的字段,Django會再次進行SQL查詢。
- 也接受無參數的調用,Django會盡可能深的遞歸查詢所有的字段。但注意有Django遞歸的限制和性能的浪費。
- Django >= 1.7,鏈式調用的select_related相當於使用可變長參數。Django < 1.7,鏈式調用會導致前邊的select_related失效,只保留最后一個。
prefetch_related()
對於多對多字段(ManyToManyField)和一對多(ForeignKey)字段,可以使用prefetch_related()來進行優化.
prefetch_related()和select_related()的設計目的很相似,都是為了減少SQL查詢的數量,但是實現的方式不一樣。后者 是通過JOIN語句,在SQL查詢內解決問題。但是對於多對多關系,使用SQL語句解決就顯得有些不太明智,因為JOIN得到的表將會很長,會導致SQL 語句運行時間的增加和內存占用的增加。若有n個對象,每個對象的多對多字段對應Mi條,就會生成Σ(n)Mi 行的結果表。
prefetch_related()的解決方法是,分別查詢每個表,然后用Python處理他們之間的關系。
如果我們要獲得張三所有去過的城市.
>>> zhangs = Person.objects.prefetch_related('visitation').get(firstname=u"張",lastname=u"三") >>> for city in zhangs.visitation.all() : ... print city ...
觸發如下SQL語句
SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`, `QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id` FROM `QSOptimize_person` WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '張'); SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`) WHERE `QSOptimize_person_visitation`.`person_id` IN (1);
第一條SQL查詢僅僅是獲取張三的Person對象,第二條比較關鍵,它選取關系表`QSOptimize_person_visitation`中`person_id`為張三的行,然后和`city`表內聯(INNER JOIN 也叫等值連接)得到結果表.
或者我們要獲得湖北的所有城市名
>>> hb = Province.objects.prefetch_related('city_set').get(name__iexact=u"湖北省") >>> for city in hb.city_set.all(): ... city.name
SQL如下:
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`name` LIKE '湖北省' ; SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` WHERE `QSOptimize_city`.`province_id` IN (1);
例如要獲得所有姓張的人去過的省:
>>> zhangs = Person.objects.prefetch_related('visitation__province').filter(firstname__iexact=u'張') >>> for i in zhangs: ... for city in i.visitation.all(): ... print city.province
要注意的是,在使用QuerySet的時候,一旦在鏈式操作中改變了數據庫請求,之前用prefetch_related緩存的數據將會被忽略掉。這會導 致Django重新請求數據庫來獲得相應的數據,從而造成性能問題。這里提到的改變數據庫請求指各種filter()、exclude()等等最終會改變 SQL代碼的操作。而all()並不會改變最終的數據庫請求,因此是不會導致重新請求數據庫的。
plist = Person.objects.prefetch_related('visitation') [p.visitation.filter(name__icontains=u"市") for p in plist]
雖然已經查詢結果中包含所有所需的city的信息,但因為在循環體中對Person.visitation進行了filter操作,這顯然改變了數據庫請求。因此這些操作會忽略掉之前緩存到的數據,重新進行SQL查詢。
在Django小於1.7的版本
plist = Person.objects.prefetch_related('visitation') [[city for city in p.visitation.all() if u"市" in city.name] for p in plist]
在Django>1.7的版本
獲取所有人訪問過的城市中帶有“武”字和“州”的城市:
wus = City.objects.filter(name__icontains = u"武") zhous = City.objects.filter(name__icontains = u"州") plist = Person.objects.prefetch_related( Prefetch('visitation', queryset = wus, to_attr = "wu_city"), Prefetch('visitation', queryset = zhous, to_attr = "zhou_city"),) [p.wu_city for p in plist] [p.zhou_city for p in plist]
None
可以通過傳入一個None來清空之前的prefetch_related。就像這樣:
prefetch_cleared_qset = qset.prefetch_related(None)
select_related()的效率要高於prefetch_related()。因此,最好在能用select_related()的地方盡量使用它,也就是說,對於ForeignKey字段,避免使用prefetch_related()。
查詢家鄉是湖北的人
普通做法1
>>> hb = Province.objects.get(name__iexact=u"湖北省") >>> people = [] >>> for city in hb.city_set.all(): ... people.extend(city.birth.all())
pre做法
>>> hb = Province.objects.prefetch_related("city_set__birth").objects.get(name__iexact=u"湖北省") >>> people = [] >>> for city in hb.city_set.all(): ... people.extend(city.birth.all())
select做法
people = list(Person.objects.select_related("hometown__province").filter(hometown__province__name__iexact=u"湖北省"))
例子2:
一個訂單表:
class Order(models.Model): customer = models.ForeignKey(Person) orderinfo = models.CharField(max_length=50) time = models.DateTimeField(auto_now_add = True) def __unicode__(self): return self.orderinfo
如果我們拿到了一個訂單的id 我們要知道這個訂單的客戶去過的省份。因為有ManyToManyField顯然必須要用prefetch_related().
>>> plist = Order.objects.prefetch_related('customer__visitation__province').get(id=1) >>> for city in plist.customer.visitation.all(): ... print city.province.name
顯然,關系到了4個表:Order、Person、City、Province,根據prefetch_related()的特性就得有4次SQL查詢.
更好的辦法是先調用一次select_related()再調用prefetch_related(),最后再select_related()后面的表.
>>> plist = Order.objects.select_related('customer').prefetch_related('customer__visitation__province').get(id=1) >>> for city in plist.customer.visitation.all(): ... print city.province.name
值得注意的是,可以在調用prefetch_related之前調用select_related,並且Django會按照你想的去做:先 select_related,然后利用緩存到的數據prefetch_related。然而一旦prefetch_related已經調 用,select_related將不起作用
小結
- 因為select_related()總是在單次SQL查詢中解決問題,而prefetch_related()會對每個相關表進行SQL查詢,因此select_related()的效率通常比后者高。
- 鑒於第一條,盡可能的用select_related()解決問題。只有在select_related()不能解決問題的時候再去想prefetch_related()。
- 你可以在一個QuerySet中同時使用select_related()和prefetch_related(),從而減少SQL查詢的次數。
- 只有prefetch_related()之前的select_related()是有效的,之后的將會被無視掉。