引入

在我們爬取某些網站時會遇到一些問題？某些網站會定時在原有網頁數據的基礎上更新一批數據。

例如某電影網站會實時更新一批最近熱門的電影。小說網站會根據作者創作的進度實時更新最新的章節數據等等。

那么遇到類似的場景，我們就可以采用增量式爬蟲了

而增量式爬蟲分為兩個步驟：

增量爬取
爬取結果去重

增量爬取

一個站點更新也會出現下面兩種情況：

1，單個頁面數據更新

當出現這種情況的時候，我們對此特定頁面的內容做哈希，當然要去除動態變化的那一部分，比如有的頁面有驗證碼或者日期，程序定期執行，在執行的最開始檢測此頁面的哈希值跟上次抓取是否有變化，如果有變化就開始抓取。

2，新增了頁面

如果是新增頁面呢，我們會對頁面入口內容做哈希，並且存儲分頁面的URL哈希值，如果頁面入口哈希值發生變化，獲取新增的頁面url列表，在這里需要用到url的去重，和數據去重類似，采用redis集合類型處理。

redis集合類型不允許添加重復的數據，當添加重復的時候時，返回0，並且添加失敗。我們將所有的url list存入redis集合，當頁面入口變化時，進行頁面url去重，只抓取新增的頁面。

爬取結果去重

結果去重也有以下兩種常用的方法：

布隆過濾器

其中布隆過濾器是通過寫文件的方式，多個進程使用需要添加同步和互斥，較為繁瑣，不推薦多線程/進程的時候使用，另外寫文件是磁盤I/O操作，耗費時間長，可以累積到一定數量再一次寫入，或者利用上下文管理器在程序結束或異常退出時一次性寫入。

class Spider(object):
    def __init():
        # 布容過濾器初始化
        self.burongname = 'test.bl'
        if not os.path.isfile(self.burongname):
            self.bl = BloomFilter(capacity=100000, error_rate=0.000001)
        else:
            with open(self.burongname, 'rb') as f:
                self.bl = BloomFilter.fromfile(f)
    
    def __enter__(self):
        u"""
        上下文管理器進入入口
        """
        return self

    def __exit__(self, *args):
        u"""
        上下文管理器，退出出口
        """
        if self.conn is not None:
            self.conn.close()

        with open(self.burongname, 'wb') as f:
            self.fingerprints.tofile(f)
    def get_infos(self):
        """
        抓取主函數
        """
        # 布隆過濾器使用部分, x為抓取到得數據
        x = json.dumps(i)
        if x not in self.bl:
            self.bl.add(x)

if __name__ == '__main__':
    with Spider() as MSS:
        MSS.get_infos()

上下文管理器，在主函數執行之前執行 def enter ，在程序運行結束或異常退出時執行def exit，上下文管理器還可以用來統計程序執行的時間。

redis集合

使用redis集合去重能夠支持多線程多進程.

利用redis集合無重復數據的特點，在redis建立集合，往其中添加數據的sha1值，添加成功返回1，表示無重復，添加失敗返回0，表示集合中已經有重復數據

使用步驟：

建立redis連接池
重復檢查

下面的例子是接口，並提供example。

[Redis]
server=192.168.0.100
pass=123@123

import sys
import hashlib
import os
import codecs
import ConfigParser
import redis


"""
利用redis的集合不允許添加重復元素來進行去重
"""


def example():
    pool, r = redis_init()
    temp_str = "aaaaaaaaa"
    result = check_repeate(r, temp_str, 'test:test')
    if result == 0:
        print ("重復")
    else:
        print ("不重復")
    redis_close(pool)

def redis_init(parasecname="Redis"):
    """
    初始化redis
    :return: redis連接池
    """
    cur_script_dir = os.path.split(os.path.realpath(__file__))[0]
    cfg_path = os.path.join(cur_script_dir, "db.conf")

    cfg_reder = ConfigParser.ConfigParser()
    secname = parasecname
    cfg_reder.readfp(codecs.open(cfg_path, "r", "utf_8"))
    redis_host = cfg_reder.get(secname, "server")
    redis_pass = cfg_reder.get(secname, "pass")

    # redis
    pool = redis.ConnectionPool(host=redis_host, port=6379, db=0, password=redis_pass)
    r = redis.Redis(connection_pool=pool)

    return pool, r

def sha1(x):
    sha1obj = hashlib.sha1()
    sha1obj.update(x)
    hash_value = sha1obj.hexdigest()
    return hash_value

def check_repeate(r, check_str, set_name):
    """
    向redis集合中添加元素，重復則返回0，不重復則添加成功，並返回1
    :param r:redis連接
    :param check_str:被添加的字符串
    :param set_name:項目所使用的集合名稱，建議如下格式：”projectname:task_remove_repeate“
    """
    hash_value = sha1(check_str)
    result = r.sadd(set_name, hash_value)
    return result

def redis_close(pool):
    """
    釋放redis連接池
    """
    pool.disconnect()

if __name__ == '__main__':
    example()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲之增量式爬蟲增量式爬蟲增量式爬蟲 scrapy增量式爬蟲增量式爬蟲分布式爬蟲與增量式爬蟲 18.增量式爬蟲 Python網絡爬蟲(增量式爬蟲) python爬蟲Scrapy框架之增量式爬蟲爬蟲的增量式抓取和數據更新