scrapy優化內存占用

本文轉載自查看原文 2020-04-14 15:13 1038

最近發現公司的scrapy爬蟲服務運行起來之后，占用內存持續增大，單個爬蟲爬取幾十萬網頁之后，占用內存達到1,2個G，單台服務器運行10個以上的爬蟲時，很快就把服務器內存耗盡了。於是着手對爬蟲進行空間性能分析及優化
首先分析以下可能原因，並依次進行排查：

內存泄露
資源長時間占用無法釋放
隊列堵塞

排查及修改記錄：
1）引用賦值帶來的資源無法釋放

python帶有自動的垃圾回收機制，用戶不需要主動的釋放對象空間，因此暫不考慮內存泄露問題。更多的內存問題出現在對象交叉引用或者多層引用后，無法自動釋放的情況。於是仔細排查代碼，發現了以下問題：

class BLSpider(scrapy.Spider):
# 無用代碼忽略...

    def parse_page(self, response):
        meta = response.meta
        meta['source'] = response.url
        ...
        # 提取新的鏈接 -> newlinks
        for link in newlinks:
            yield Request(link, meta=meta, callback=self.parse_page)

生成一個新請求時，會傳遞一組元數據meta。代碼直接由當前response的meta數據直接賦值后傳入新的請求中，這就帶來一個潛在的內存問題：python的賦值是傳遞引用，也就是等號兩邊變量指向同一個對象（同一個地址），meta繼續通過request向下傳遞時，原來的response對象由於一部分成員被新的request引用而無法釋放，隨着請求越來越多，內存持續增大。
要解決這個問題，需要將賦值改成拷貝，查看meta的實際數據結構發現其中的value都是簡單類型，因此直接采用淺拷貝即可（關於python 的深拷貝、淺拷貝參考https://docs.python.org/2/library/copy.html）。這樣新的meta變量與response.meta不再指向同一對象，過期對象的資源可以自動回收

import copy
class BLSpider(scrapy.Spider):
# 無用代碼忽略...

    def parse_page(self, response):
        meta = copy.copy(response.meta)
        meta['source'] = response.url
        ...
        # 提取新的鏈接 -> newlinks
        for link in newlinks:
            yield Request(link, meta=meta, callback=self.parse_page)

2）scrapy的請求過多
利用scrapy自帶的telnet工具，可以查看scrapy的一些運行時參數

telnet localhost 6023

進入telnet后輸入prefs()，查看當前的對象數

>>> prefs() 
Live References 

HtmlResponse                       75   oldest: 5s ago 
PageItem                           11   oldest: 0s ago 
Request                        146609   oldest: 12408s ago 
Selector                           67   oldest: 4s ago 
WangdingSpider                      1   oldest: 31198s ago

在爬蟲占用內存達到1.2G的時候，內存中的request有14萬多，查看scrapy的官方文檔，發現其中一章提供了可以將request隊列寫入硬盤的方法https://doc.scrapy.org/en/latest/topics/jobs.html?highlight=JOBDIR，這個技術的初衷是可以讓爬蟲中斷后恢復現場繼續運行，但是也可以減少內存的占用。
重新啟動scrapy，按照文檔說明傳入jobdir參數，

scrapy crawl news -s JOBDIR=/data/jobdir

運行一段時間后檢查內存，發現scrapy始終只占用100~200MB，而jobdir中的request文件越來越大，說明scrapy把之前內存中保存的大量request對象存到了文件中。

總結：
本次scrapy空間性能優化主要完成兩個工作：
1）利用copy解決python對象嵌套引用問題，使資源能順利釋放
2）將scrapy的請求隊列存入文件，省掉其在內存中的占用空間

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 優化MySQL內存占用過高問題如何優化Python占用的內存，面試必學 java優化占用內存的幾種方法 ElasticSearch CPU和內存占用高的優化記錄 php-fpm優化內存占用大 SqlServer性能優化，查看CPU、內存占用大的會話及SQL語句解決Apache長時間占用內存大的問題，Apache 內存優化方法 Linux的php-fpm優化心得-php-fpm進程占用內存大和不釋放內存問題（轉）關於 Elasticsearch 內存占用及分配圖片占用內存計算