深入select_related與prefetch_related函數

本文轉載自查看原文 2015-01-18 18:05 2886 django

閱讀博客http://blog.jobbole.com/74881/的筆記

在數據庫有外鍵的時候,使用select_related()和prefetch_related()可以很好的減少數據庫請求的次數,從而提高性能.

下面是數據庫設計圖

models.py如下:

from django.db import models
 
class Province(models.Model):
    name = models.CharField(max_length=10)
    def __unicode__(self):
        return self.name
 
class City(models.Model):
    name = models.CharField(max_length=5)
    province = models.ForeignKey(Province)
    def __unicode__(self):
        return self.name
 
class Person(models.Model):
    firstname  = models.CharField(max_length=10)
    lastname   = models.CharField(max_length=10)
    visitation = models.ManyToManyField(City, related_name = "visitor")
    hometown   = models.ForeignKey(City, related_name = "birth")
    living     = models.ForeignKey(City, related_name = "citizen")
    def __unicode__(self):
        return self.firstname + self.lastname

app名為"QSOptimize"

`qsoptimize_province` 表中只有2條數據：湖北省和廣東省，`qsoptimize_city`表中只有三條數據：武漢市、十堰市和廣州市

select_related()

對於一對一字段(OneToOneField)和外鍵字段(ForeignKey),可以使用select_related()來對QuerySet進行優化.

在對QuerySet使用select_related()函數后，Django會獲取相應外鍵對應的對象，從而在之后需要的時候不必再查詢數據庫了。

一個例子:

>>> citys = City.objects.all()
>>> for c in citys:
...   print c.province

這樣會導致線性的SQL查詢,SQL查詢語句如下:

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 2 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1 ;

使用select_related()函數后

>>> citys = City.objects.select_related().all()
>>> for c in citys:
...   print c.province

就只有一次SQL查詢,大大減少SQL查詢次數

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,
`QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM`QSOptimize_city`
INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) ;

django使用了INNER JOIN來獲得省份的信息.

使用方法

select_related() 接受可變長參數，每個參數是需要獲取的外鍵（父表的內容）的字段名，以及外鍵的外鍵的字段名、外鍵的外鍵的外鍵…。若要選擇外鍵的外鍵需要使用兩個下划線“__”來連接。

例如獲得張三的現居省份

>>> zhangs = Person.objects.select_related('living__province').get(firstname=u"張",lastname=u"三")
>>> zhangs.living.province

觸發的SQL:

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,
`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`,
`QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`,
`QSOptimize_province`.`name`
FROM `QSOptimize_person`
INNER JOIN `QSOptimize_city` ON (`QSOptimize_person`.`living_id` = `QSOptimize_city`.`id`)
INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`)
WHERE (`QSOptimize_person`.`lastname` = '三'  AND `QSOptimize_person`.`firstname` = '張' );

django使用了兩次INNER JOIN來完成請求,但是未指定的外鍵則不會被添加到結果中,例如張三的故鄉.

django1.7以前同時指定兩個外鍵使用

zhangs = Person.objects.select_related('hometown__province','living__province').get(firstname=u"張",lastname=u"三")

1.7后使用

zhangs = Person.objects.select_related('hometown__province').select_related('living__province').get(firstname=u"張",lastname=u"三")

depth參數

select_related() 接受depth參數，depth參數可以確定select_related的深度。Django會遞歸遍歷指定深度內的所有的OneToOneField和ForeignKey.

zhangs = Person.objects.select_related(depth = d)

d=1 相當於 select_related(‘hometown’,'living’)

d=2 相當於 select_related(‘hometown__province’,'living__province’)

無參數

select_related() 也可以不加參數，這樣表示要求Django盡可能深的select_related。例如：zhangs = Person.objects.select_related().get(firstname=u”張”,lastname=u”三”)。但要注意兩點：

Django本身內置一個上限，對於特別復雜的表關系，Django可能在你不知道的某處跳出遞歸，從而與你想的做法不一樣。具體限制是怎么工作的我表示不清楚。
Django並不知道你實際要用的字段有哪些，所以會把所有的字段都抓進來，從而會造成不必要的浪費而影響性能。

小結

select_related主要針一對一和多對一關系進行優化。
select_related使用SQL的JOIN語句進行優化，通過減少SQL查詢的次數來進行優化、提高性能。
可以通過可變長參數指定需要select_related的字段名。也可以通過使用雙下划線“__”連接字段名來實現指定的遞歸查詢。沒有指定的字段不會緩存，沒有指定的深度不會緩存，如果要訪問的話Django會再次進行SQL查詢。
也可以通過depth參數指定遞歸的深度，Django會自動緩存指定深度內所有的字段。如果要訪問指定深度外的字段，Django會再次進行SQL查詢。
也接受無參數的調用，Django會盡可能深的遞歸查詢所有的字段。但注意有Django遞歸的限制和性能的浪費。
Django >= 1.7，鏈式調用的select_related相當於使用可變長參數。Django < 1.7，鏈式調用會導致前邊的select_related失效，只保留最后一個。

prefetch_related()

對於多對多字段（ManyToManyField）和一對多(ForeignKey)字段，可以使用prefetch_related()來進行優化.

prefetch_related()和select_related()的設計目的很相似，都是為了減少SQL查詢的數量，但是實現的方式不一樣。后者是通過JOIN語句，在SQL查詢內解決問題。但是對於多對多關系，使用SQL語句解決就顯得有些不太明智，因為JOIN得到的表將會很長，會導致SQL 語句運行時間的增加和內存占用的增加。若有n個對象，每個對象的多對多字段對應Mi條，就會生成Σ(n)Mi 行的結果表。

prefetch_related()的解決方法是，分別查詢每個表，然后用Python處理他們之間的關系。

如果我們要獲得張三所有去過的城市.

>>> zhangs = Person.objects.prefetch_related('visitation').get(firstname=u"張",lastname=u"三")
>>> for city in zhangs.visitation.all() :
...   print city
...

觸發如下SQL語句

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,
`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`
FROM `QSOptimize_person`
WHERE (`QSOptimize_person`.`lastname` = '三'  AND `QSOptimize_person`.`firstname` = '張');
 
SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`,
`QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE `QSOptimize_person_visitation`.`person_id` IN (1);

第一條SQL查詢僅僅是獲取張三的Person對象，第二條比較關鍵，它選取關系表`QSOptimize_person_visitation`中`person_id`為張三的行，然后和`city`表內聯（INNER JOIN 也叫等值連接）得到結果表.

或者我們要獲得湖北的所有城市名

>>> hb = Province.objects.prefetch_related('city_set').get(name__iexact=u"湖北省")
>>> for city in hb.city_set.all():
...   city.name

SQL如下:

SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`name` LIKE '湖北省' ;
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
WHERE `QSOptimize_city`.`province_id` IN (1);

例如要獲得所有姓張的人去過的省：

>>> zhangs = Person.objects.prefetch_related('visitation__province').filter(firstname__iexact=u'張')
>>> for i in zhangs:
...   for city in i.visitation.all():
...     print city.province

要注意的是，在使用QuerySet的時候，一旦在鏈式操作中改變了數據庫請求，之前用prefetch_related緩存的數據將會被忽略掉。這會導致Django重新請求數據庫來獲得相應的數據，從而造成性能問題。這里提到的改變數據庫請求指各種filter()、exclude()等等最終會改變 SQL代碼的操作。而all()並不會改變最終的數據庫請求，因此是不會導致重新請求數據庫的。

plist = Person.objects.prefetch_related('visitation')
[p.visitation.filter(name__icontains=u"市") for p in plist]

雖然已經查詢結果中包含所有所需的city的信息，但因為在循環體中對Person.visitation進行了filter操作，這顯然改變了數據庫請求。因此這些操作會忽略掉之前緩存到的數據，重新進行SQL查詢。

在Django小於1.7的版本

plist = Person.objects.prefetch_related('visitation')
[[city for city in p.visitation.all() if u"市" in city.name] for p in plist]

在Django>1.7的版本

獲取所有人訪問過的城市中帶有“武”字和“州”的城市：

wus = City.objects.filter(name__icontains = u"武")
zhous = City.objects.filter(name__icontains = u"州")
plist = Person.objects.prefetch_related(
    Prefetch('visitation', queryset = wus, to_attr = "wu_city"),
    Prefetch('visitation', queryset = zhous, to_attr = "zhou_city"),)
[p.wu_city for p in plist]
[p.zhou_city for p in plist]

None

可以通過傳入一個None來清空之前的prefetch_related。就像這樣：

prefetch_cleared_qset = qset.prefetch_related(None)

select_related()的效率要高於prefetch_related()。因此，最好在能用select_related()的地方盡量使用它，也就是說，對於ForeignKey字段，避免使用prefetch_related()。

查詢家鄉是湖北的人

普通做法1

>>> hb = Province.objects.get(name__iexact=u"湖北省")
>>> people = []
>>> for city in hb.city_set.all():
...   people.extend(city.birth.all())

pre做法

>>> hb = Province.objects.prefetch_related("city_set__birth").objects.get(name__iexact=u"湖北省")
>>> people = []
>>> for city in hb.city_set.all():
...   people.extend(city.birth.all())

select做法

people = list(Person.objects.select_related("hometown__province").filter(hometown__province__name__iexact=u"湖北省"))

例子2:

一個訂單表:

class Order(models.Model):
    customer   = models.ForeignKey(Person)
    orderinfo  = models.CharField(max_length=50)
    time       = models.DateTimeField(auto_now_add = True)
    def __unicode__(self):
        return self.orderinfo

如果我們拿到了一個訂單的id 我們要知道這個訂單的客戶去過的省份。因為有ManyToManyField顯然必須要用prefetch_related().

>>> plist = Order.objects.prefetch_related('customer__visitation__province').get(id=1)
>>> for city in plist.customer.visitation.all():
...   print city.province.name

顯然，關系到了4個表：Order、Person、City、Province，根據prefetch_related()的特性就得有4次SQL查詢.

更好的辦法是先調用一次select_related()再調用prefetch_related()，最后再select_related()后面的表.

>>> plist = Order.objects.select_related('customer').prefetch_related('customer__visitation__province').get(id=1)
>>> for city in plist.customer.visitation.all():
...   print city.province.name

值得注意的是，可以在調用prefetch_related之前調用select_related，並且Django會按照你想的去做：先 select_related，然后利用緩存到的數據prefetch_related。然而一旦prefetch_related已經調用，select_related將不起作用

小結

因為select_related()總是在單次SQL查詢中解決問題，而prefetch_related()會對每個相關表進行SQL查詢，因此select_related()的效率通常比后者高。
鑒於第一條，盡可能的用select_related()解決問題。只有在select_related()不能解決問題的時候再去想prefetch_related()。
你可以在一個QuerySet中同時使用select_related()和prefetch_related()，從而減少SQL查詢的次數。
只有prefetch_related()之前的select_related()是有效的，之后的將會被無視掉。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Django中select_related和prefetch_related的用法與區別 Django中的prefetch_related()函數優化 Django 中的select_related函數優化查詢 django-orm-select_related()函數 select函數深入理解group by 語句的執行順序 from→where→group by→select（含聚合函數） DNS Prefetch Lua中的select函數 select函數詳解及應用網絡編程select函數