Scrapy系列之爬取豆瓣電影

本文轉載自查看原文 2015-09-17 00:17 3104 爬蟲/ python/ scrapy

　　每日一練，每日一博。

　　Scrapy，Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試。

1.確定目標網站：豆瓣電影 http://movie.douban.com/top250

2.創建Scrapy項目： scrapy startproject doubanmovie

3.配置settings.py文件

BOT_NAME = 'doubanmovie'

SPIDER_MODULES = ['doubanmovie.spiders']
NEWSPIDER_MODULE = 'doubanmovie.spiders'


USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

FEED_URI = u'file:///G:/program/doubanmovie/douban.csv'  #將抓取的數據存放到douban.csv文件中
FEED_FORMAT = 'CSV'

3.定義數據items.py：

from scrapy import Item,Field


class DoubanmovieItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = Field()   　　 #標題--電影名
    movieInfo = Field()　　#電影信息
    star = Field()　　　　　#電影評分
    quote = Field()　　　　 #名句

4.創建爬蟲doubanspider.py：

import scrapy
from scrapy.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from doubanmovie.items import DoubanmovieItem

class Douban(CrawlSpider):
    name = "douban"
    redis_key = 'douban:start_urls'
    start_urls = ['http://movie.douban.com/top250']

    url = 'http://movie.douban.com/top250'

    def parse(self,response):
        # print response.body
        item = DoubanmovieItem()
        selector = Selector(response)
        Movies = selector.xpath('//div[@class="info"]')
        for eachMoive in Movies:
            title = eachMoive.xpath('div[@class="hd"]/a/span/text()').extract()
            fullTitle = ''
            for each in title:
                fullTitle += each
            movieInfo = eachMoive.xpath('div[@class="bd"]/p/text()').extract()
            star = eachMoive.xpath('div[@class="bd"]/div[@class="star"]/span/em/text()').extract()[0]
            quote = eachMoive.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()
            #quote可能為空，因此需要先進行判斷
            if quote:
                quote = quote[0]
            else:
                quote = ''
            item['title'] = fullTitle
            item['movieInfo'] = ';'.join(movieInfo)
            item['star'] = star
            item['quote'] = quote
            yield item
        nextLink = selector.xpath('//span[@class="next"]/link/@href').extract()
        #第10頁是最后一頁，沒有下一頁的鏈接
        if nextLink:
            nextLink = nextLink[0]
            print nextLink
            yield Request(self.url + nextLink,callback=self.parse)

5.爬取結果：如果出現編碼問題，在excel文件中選擇“utf-8”的編碼保存文件即可

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy爬取豆瓣電影信息 Scrapy教程--豆瓣電影圖片爬取爬取豆瓣電影基於python的scrapy框架爬取豆瓣電影及其可視化 Scrapy實戰篇（三）之爬取豆瓣電影短評爬蟲系列(十) 用requests和xpath爬取豆瓣電影爬蟲系列1：Requests+Xpath 爬取豆瓣電影TOP 爬取豆瓣電影信息 scrapy爬蟲框架教程（二）-- 爬取豆瓣電影TOP250 Scrapy項目 - 實現豆瓣 Top250 電影信息爬取的爬蟲設計