python之scrapy初探


1、知識點

"""
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,我們只需要實現少量的代碼,就能夠快速的抓取
Scrapy模塊:
        1、scheduler:用來存放url隊列
        2、downloader:發送請求
        3、spiders:提取數據和url
        4、itemPipeline:數據保存

入門:
    1、創建一個scrapy項目
        scrapy startproject mySpider
    2、生成一個爬蟲 ,#定義范圍,防止爬去其他網址
        scrapy genspider sina "sina.com.cn"
    3、提取數據
        完善spider,使用xpath等方法
    4、保存數據
        pipeline中保存數據
   5、運行爬蟲
     scrapy crawl sina
項目詳解: 1、scrapy.cfg:項目配置文件 2、items.py :需要爬去的字段 3、middlewares.py:中間件 4、pipelines.py:數據的處理和保存 , item為爬去的數據
"""

2、目錄結構

3、解析案例

# -*- coding: utf-8 -*-
import scrapy


class SinaSpider(scrapy.Spider):
    name = 'sina' #爬蟲名
    allowed_domains = ['sina.com.cn']  #允許爬取的范圍
    start_urls = ['http://sports.sina.com.cn/nba/']    #開始爬取的url

    def parse(self, response):
        # ret = response.xpath("//div[@class='-live-page-widget']//a/text()").extract()
        # print(ret)
        # pass

        li_list = response.xpath("//div[@class='-live-page-widget']")

        for li in list:
            item = { }
            item["data"]= li.xpath(".//a/text()").extract()[0]
            print(item)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM