相關代碼已經修改調試----2017-3-21
實現:千圖網上高清圖片的爬取
程序運行20小時,爬取大約162000張圖片,一共49G,存入百度雲。鏈接:http://pan.baidu.com/s/1hsolxNe 密碼:y0ut
筆記
一、scrapy圖片爬蟲構建思路
1.分析網站 2.選擇爬取方式與策略 3.創建爬蟲項目 → 定義items.py 4.編寫爬蟲文件 5.編寫pipelines與setting 6.調試
二、千圖網難點(http://www.58pic.com/)
1.要爬取全站的圖片 2.要爬取高清的圖片------找出高清地址即可 3.要有相應的反爬蟲機制------如模擬瀏覽器,不記錄cookie等,只要相應注釋去掉即可COOKIES_ENABLED = False
三、散點知識
1.from scrapy.http import Request 是回調函數用Request(url=...,callback=...) 2.xpath的//表示提取所有符合的節點
如果對此項目感興趣請移步我的github:https://github.com/pujinxiao/qiantuwang
作者:今孝
出處:http://www.cnblogs.com/jinxiao-pu/p/6660062.html
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。