windows下使用python的scrapy爬蟲框架，爬取個人博客文章內容信息

本文轉載自查看原文 2018-03-09 16:10 1316 python

scrapy作為流行的python爬蟲框架，簡單易用，這里簡單介紹如何使用該爬蟲框架爬取個人博客信息。關於python的安裝和scrapy的安裝配置請讀者自行查閱相關資料，或者也可以關注我后續的內容。

本文使用的python版本為2.7.9 scrapy版本為0.14.3

1.假設我們爬蟲的名字為vpoetblog

在命令行下切換到桌面目錄，輸入startproject scrapy vpoetblog 如下圖所示:

命令執行成功后會在桌面生成一個名為vpoetblog的文件夾

該文件夾的目錄為:

│ scrapy.cfg │ └─vpoetblog │ items.py │ pipelines.py │ settings.py │ __init__.py │ └─spiders __init__.py

這里我們要新建一些文件，最終的目錄結構如下:

│ scrapy.cfg │ data.txt //用於保存抓取到的數據 └─doubanmoive │ items.py //用於定義抓取的item │ pipelines.py //用於將抓取的數據進行保存 │ settings.py │ __init__.py │ └─spiders

 blog_spider.py //主爬蟲函數 用於定義抓取規則等 __init__.py

items.py內容如下:

[python] view plain copy

pipelines.py內容如下:

[python] view plain copy

settings.py內容如下:

[python] view plain copy

# Scrapy settings for vpoetblog project
#
# For simplicity, this file contains only the most important settings by
# default. All the other settings are documented here:
#
# http://doc.scrapy.org/topics/settings.html
#
BOT_NAME = 'vpoetblog'
BOT_VERSION = '1.0'
SPIDER_MODULES = ['vpoetblog.spiders']
NEWSPIDER_MODULE = 'vpoetblog.spiders'
ITEM_PIPELINES={
'vpoetblog.pipelines.Pipeline':300
}
DOWNLOAD_DELAY = 2
RANDOMIZE_DOWNLOAD_DELAY = True
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
COOKIES_ENABLED = True

blog_spider.py內容如下:

[python] view plain copy

# -*- coding: utf-8 -*-
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from vpoetblog.items import VpoetblogItem
class MoiveSpider(CrawlSpider):
name="vpoetblog"
allowed_domains=["blog.csdn.net"]
start_urls=["http://blog.csdn.net/u013018721/article/list/1"]
rules=[
Rule(SgmlLinkExtractor(allow=(r'http://blog.csdn.net/u013018721/article/list/\d+'))),
Rule(SgmlLinkExtractor(allow=(r'http://blog.csdn.net/u013018721/article/details/\d+')),callback="parse_item"),
]
def parse_item(self,response):
sel=HtmlXPathSelector(response)
item=VpoetblogItem()
item['article_name']=sel.select('//*[@class="link_title"]/a/text()').extract()
item['public_time']=sel.select('//*[@class="link_postdate"]/text()').extract()
item['read_num']=sel.select('//*[@class="link_view"]/text()').extract()
return item

運行命令如下:

運行截圖如下:

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用webmagic編寫Java爬蟲獲取博客園文章內容爬蟲實戰【1】使用python爬取博客園的某一篇文章爬取微博文章內容，關鍵字搜索爬取 Python爬蟲實踐——爬取網站文章 45.更新一下scrapy爬取工商信息爬蟲代碼 Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上) python3下scrapy爬蟲(第八卷:循環爬取網頁多頁數據） python爬蟲爬取全球機場信息 Python爬蟲學習(三) ——————爬取外賣信息基於Scrapy框架爬取亞馬遜熱銷商品信息