Python scrapy框架爬取瓜子二手車信息數據

本文轉載自查看原文 2019-05-09 14:22 1284 python/ scrapy/ fiddler

項目實施依賴：

python，scrapy ，fiddler

scrapy安裝依賴的包：

可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載 pywin32，lxml，Twisted，scrapy然后pip安裝

項目實施開始：

1、創建scrapy項目：cmd中cd到需創建的文件目錄下

scrapy  startproject guazi

View Code

2、創建爬蟲：cd到創建好的項目下

1 scrapy genspider gz guazi.com

View Code

3、分析目標網址：

　　第一次我直接用的谷歌瀏覽器的抓包分析，取得UA和Cookies請求，返回的html數據完全缺失，分析可能是攜帶的Cookies

有問題，然后就用fiddler抓包才，得到Cookies與谷歌上得到Cookies多了UA，時間等參數，

4、將UA，Cookies添加到下載中間中去：

1 class Guzi1DownloaderMiddleware(object):
2     def process_request(self, request, spider):
3             # 需要對得到的cookies處理成字典類型
4         request.cookies={}
5         request.headers["User-Agent"]=""

View Code

5、在settings中將DOWNLOADER_MIDDLEWARES打開

6、在spiders目錄下找到gz.py開始編寫爬蟲邏輯處理

 1 import scrapy
 2 import time
 3 
 4 class GzSpider(scrapy.Spider):
 5     name = 'gz'
 6     allowed_domains = ['guazi.com']
 7     start_urls = ['https://www.guazi.com/cd/buy/0']
 8 
 9     def parse(self, response):
10         # 得到頁面上所有車輛的url
11         url_list = response.xpath('//ul[@class="carlist clearfix js-top"]//li/a/@href').extract()
12         url_list = [response.urljoin(url) for url in url_list]
13         url_list = [url.replace("cq", "cd") for url in url_list]
14         for url in url_list:
15             yield scrapy.Request(url=url, callback=self.parse1, dont_filter=True)
16         
17         # 獲取下一頁的url
18         next_url = response.urljoin(response.xpath('//span[text()="下一頁"]/../@href').extract_first())
19         if next_url:
20             yield scrapy.Request(url=next_url, callback=self.parse, dont_filter=True)
21         time.sleep(2)
22 
23     def parse1(self, response):
24         # 判斷是否有數據
25         if response.xpath('//h2/text()').extract_first():
26             print(response.xpath('//h2/text()').extract_first().strip())
27             item = {}
28             item["車型"] = response.xpath('//h2/text()').extract_first().strip()
29             item["選車類型"] = response.xpath('//h2/span/text()').extract_first()
30             item["價格/萬"] = response.xpath('//div[@class="pricebox js-disprice"]/span[1]/text()').extract_first().strip()
31             item["新車價格"] = response.xpath('//div[@class="pricebox js-disprice"]/span[2]/text()').extract_first().strip()
32             item["上牌時間"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[1]/div/text()').extract_first().strip()
33             item["公里數"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[2]/div/text()').extract_first().strip()
34             item["排量"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[3]/div/text()').extract_first().strip()
35             item["變速箱"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[4]/div/text()').extract_first().strip()
36             item["配置信息"] = response.xpath('//span[@class="type-gray"]//text()').extract()
37             item["網址"] = response.url
38             yield item

View Code

7、啟動爬蟲並保存為csv文件

scrapy crawl gz -o guanzi.csv

View Code

8、最后得到了想要的二手車信息，貼上部分截圖

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬取瓜子二手車代碼 python爬蟲爬取人人車（二手車）、利用padas、matplotlib生成圖表，將信息打成csv格式記瓜子二手車的一次面試 Python高級應用課程設計作業——二手車市場數據爬取與分析二手車項目（一）能繞赤道（4萬公里）5圈的車是什么樣的？Python爬取懂車帝網站數據，並做數據可視化展示二手車概況 58同城二手車數據爬蟲——數字加密解碼（Python原創）天池_二手車交易價格預測數據分析解決信息不對稱——看區塊鏈技術如何普惠二手車交易消費者 JavaWeb實現網上二手車交易平台小項目