python之scrapy初探

本文轉載自查看原文 2019-06-22 23:29 601 python爬蟲之scrapy框架

1、知識點

"""
Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架，我們只需要實現少量的代碼，就能夠快速的抓取
Scrapy模塊：
        1、scheduler:用來存放url隊列
        2、downloader：發送請求
        3、spiders:提取數據和url
        4、itemPipeline：數據保存

入門：
    1、創建一個scrapy項目
        scrapy startproject mySpider
    2、生成一個爬蟲 ，#定義范圍，防止爬去其他網址
        scrapy genspider sina "sina.com.cn"
    3、提取數據
        完善spider，使用xpath等方法
    4、保存數據
        pipeline中保存數據
　　 5、運行爬蟲
　　　　　scrapy crawl sina


項目詳解：
    1、scrapy.cfg:項目配置文件
    2、items.py :需要爬去的字段
    3、middlewares.py：中間件
    4、pipelines.py:數據的處理和保存 ， item為爬去的數據
"""

2、目錄結構

3、解析案例

# -*- coding: utf-8 -*-
import scrapy


class SinaSpider(scrapy.Spider):
    name = 'sina' #爬蟲名
    allowed_domains = ['sina.com.cn']  #允許爬取的范圍
    start_urls = ['http://sports.sina.com.cn/nba/']    #開始爬取的url

    def parse(self, response):
        # ret = response.xpath("//div[@class='-live-page-widget']//a/text()").extract()
        # print(ret)
        # pass

        li_list = response.xpath("//div[@class='-live-page-widget']")

        for li in list:
            item = { }
            item["data"]= li.xpath(".//a/text()").extract()[0]
            print(item)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲 ---scrapy框架初探及實戰 Scrapy的架構初探 python scrapy python爬蟲scrapy之scrapy終端(Scrapy shell) python初探——pandas使用 python之crawlspider初探 [python]初探socket 【python】requests模塊初探（一） python---wsgiref初探 python SimpleHTTPRequestHandler初探