1、知識點
""" Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,我們只需要實現少量的代碼,就能夠快速的抓取 Scrapy模塊: 1、scheduler:用來存放url隊列 2、downloader:發送請求 3、spiders:提取數據和url 4、itemPipeline:數據保存 入門: 1、創建一個scrapy項目 scrapy startproject mySpider 2、生成一個爬蟲 ,#定義范圍,防止爬去其他網址 scrapy genspider sina "sina.com.cn" 3、提取數據 完善spider,使用xpath等方法 4、保存數據 pipeline中保存數據
5、運行爬蟲
scrapy crawl sina
項目詳解: 1、scrapy.cfg:項目配置文件 2、items.py :需要爬去的字段 3、middlewares.py:中間件 4、pipelines.py:數據的處理和保存 , item為爬去的數據 """
2、目錄結構
3、解析案例
# -*- coding: utf-8 -*- import scrapy class SinaSpider(scrapy.Spider): name = 'sina' #爬蟲名 allowed_domains = ['sina.com.cn'] #允許爬取的范圍 start_urls = ['http://sports.sina.com.cn/nba/'] #開始爬取的url def parse(self, response): # ret = response.xpath("//div[@class='-live-page-widget']//a/text()").extract() # print(ret) # pass li_list = response.xpath("//div[@class='-live-page-widget']") for li in list: item = { } item["data"]= li.xpath(".//a/text()").extract()[0] print(item)