python爬蟲實戰(二)--------千圖網高清圖


相關代碼已經修改調試----2017-3-21

實現:千圖網上高清圖片的爬取

程序運行20小時,爬取大約162000張圖片,一共49G,存入百度雲。鏈接:http://pan.baidu.com/s/1hsolxNe 密碼:y0ut

筆記

一、scrapy圖片爬蟲構建思路

 1.分析網站
 2.選擇爬取方式與策略
 3.創建爬蟲項目 → 定義items.py
 4.編寫爬蟲文件
 5.編寫pipelines與setting
 6.調試

二、千圖網難點(http://www.58pic.com/

 1.要爬取全站的圖片
 2.要爬取高清的圖片------找出高清地址即可
 3.要有相應的反爬蟲機制------如模擬瀏覽器,不記錄cookie等,只要相應注釋去掉即可COOKIES_ENABLED = False

三、散點知識

1.from scrapy.http import Request 是回調函數用Request(url=...,callback=...)
2.xpath的//表示提取所有符合的節點

如果對此項目感興趣請移步我的github:https://github.com/pujinxiao/qiantuwang

作者:今孝
出處:http://www.cnblogs.com/jinxiao-pu/p/6660062.html
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM