首先創建project:

[python] view plain copy

一. items.py編寫

在這里為清晰說明，只提取文章名稱和文章網址。

[python] view plain copy

[python] view plain copy

其中，構造函數中以可寫方式創建並打開存儲文件。在process_item中實現對item處理，包含將得到的item寫入到json形式的輸出文件中。

對於setting文件，他作為配置文件，主要是至執行對spider的配置。一些容易被改變的配置參數可以放在spider類的編寫中，而幾乎在爬蟲運行過程中不改變的參數在settings.py中進行配置。

[python] view plain copy

# -*- coding:utf-8 -*-
BOT_NAME = 'CSDNBlog'
SPIDER_MODULES = ['CSDNBlog.spiders']
NEWSPIDER_MODULE = 'CSDNBlog.spiders'
#禁止cookies,防止被ban
COOKIES_ENABLED = False
ITEM_PIPELINES = {
'CSDNBlog.pipelines.CsdnblogPipeline':300
}
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'CSDNBlog (+http://www.yourdomain.com)'

這里將COOKIES_ENABLED參數置為True，使根據cookies判斷訪問的站點不能發現爬蟲軌跡，防止被ban。

ITEM_PIPELINES類型為字典，用於設置啟動的pipeline，其中key為定義的pipeline類，value為啟動順序，默認0-1000。

爬蟲編寫始終是重頭戲。原理是分析網頁得到“下一篇”的鏈接，並返回Request對象。進而繼續爬取下一篇文章，直至沒有。

上碼：

[python] view plain copy

#!/usr/bin/python
# -*- coding:utf-8 -*-
# from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.spider import Spider
from scrapy.http import Request
from scrapy.selector import Selector
from CSDNBlog.items import CsdnblogItem
class CSDNBlogSpider(Spider):
"""爬蟲CSDNBlogSpider"""
name = "CSDNBlog"
#減慢爬取速度為1s
download_delay = 1
allowed_domains = ["blog.csdn.net"]
start_urls = [
#第一篇文章地址
"http://blog.csdn.net/u012150179/article/details/11749017"
]
def parse(self, response):
sel = Selector(response)
#items = []
#獲得文章url和標題
item = CsdnblogItem()
article_url = str(response.url)
article_name = sel.xpath('//div[@id="article_details"]/div/h1/span/a/text()').extract()
item['article_name'] = [n.encode('utf-8') for n in article_name]
item['article_url'] = article_url.encode('utf-8')
yield item
#獲得下一篇文章的url
urls = sel.xpath('//li[@class="next_article"]/a/@href').extract()
for url in urls:
print url
url = "http://blog.csdn.net" + url
print url
yield Request(url, callback=self.parse)

（1）download_delay參數設置為1，將下載器下載下一個頁面前的等待時間設置為1s，也是防止被ban的策略之一。主要是減輕服務器端負載。

（2）從response中抽取文章鏈接與文章題目，編碼為utf-8。注意yield的使用。

（3）抽取“下一篇”的url，由於抽取后缺少http://blog.csdn.NET部分，所以補充。兩個print只為調試，無實際意義。重點在於

[python] view plain copy

也就是將新獲取的request返回給引擎，實現繼續循環。也就實現了“自動下一網頁的爬取”。

[python] view plain copy

部分存儲數據截圖：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 淘寶爬取某人的所有購物訂單爬蟲實戰——Scrapy爬取伯樂在線所有文章 webmagic爬取博客園所有文章使用JAVA爬取博客里面的所有文章 python網絡爬蟲之使用scrapy自動爬取多個網頁 windows下使用python的scrapy爬蟲框架，爬取個人博客文章內容信息 Scrapy分布式爬蟲打造搜索引擎- (二)伯樂在線爬取所有文章 Scrapy爬取多層網頁結構數據 Python爬取CSDN博客文章 Python開發爬蟲之動態網頁抓取篇：爬取博客評論數據——通過Selenium模擬瀏覽器抓取