PyCharm爬蟲實例：使用Scrapy抓取網頁特定內容、數據采集與數據預處理--biaobiao88

本文轉載自查看原文 2020-11-01 23:29 3352 Scrapy/ Python實現Scrapy爬蟲/ PyCharm爬蟲的使用

Scraoy入門實例一---Scrapy介紹與安裝&PyCharm的安裝&項目實戰

一、Scrapy的安裝

1.Scrapy介紹

Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說,網絡抓取)所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

2.Scrapy安裝

推薦使用Anaconda安裝Scrapy

Anaconda是一個開源的包、環境管理神器，Anaconda包含了conda、Python在內的超過180個科學包及其依賴項。從官網下載安裝Anaconda（Individual Edition），根據自己的系統選擇下載，進行安裝，選擇next繼續安裝，Install for選項選Just for me，選擇安裝位置后，靜待完成安裝。

裝好之后打開命令行，輸入conda install scrapy，然后根據提示按Y，就會將Scrapy及其依賴的包全部下載下來，這樣就完成了安裝。

注意：在使用命令行安裝scrapy包時，會出現下載超時的問題，即下載失敗，我們可以通過修改其的鏡像文件，以此來提高下載scrapy包的速度。可參考博客：https://blog.csdn.net/zhoulizhu/article/details/78809459

這時測試Scrapy是否安裝成功：在命令行窗口輸入scrapy回車，如果顯示如下界面就證明安裝成功：

二、PyCharm的安裝

1.PyCharm介紹

PyCharm是一種Python IDE，帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具，比如調試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制。此外，該IDE提供了一些高級功能，以用於支持Django框架下的專業Web開發。

2.PyCharm安裝

進入PyCharm的官網，直接點擊DownLoad進行下載，左邊是專業版，右邊是社區版，社區版免費，專業版免費試用。

如果我們之前沒有下載有Python解釋器的話，在等待安裝的時間我們可以去下載python解釋器，進入Python官網，根據系統、版本下載對應的壓縮包即可，在安裝完后，在環境變量Path中配置Python解釋器的安裝路徑。可參考博客：https://www.jb51.net/article/161175.htm

三、Scrapy抓取豆瓣項目實戰

前提：在PyCharm中要使用Scrapy的話，必須先在PyCharm中安裝所支持的Scrapy包，過程如下，點擊文件（File）>> 設置（Settings...），步驟如下圖，我安裝Scrapy之前綠色框內只有兩個Package，如果當你點擊后看到有Scrapy包的話，那就不用安裝了，直接進行接下來的操作即可

如果沒有Scrapy包的話，點擊“+” ，搜索Scrapy包，點擊Install Package 進行安裝

等待安裝完成即可。

1.新建項目

打開剛安裝好的PyCharm，使用pycharm工具在軟件的終端，如果找不到PyCharm終端在哪，在左下角的底部的Terminal就是了

輸入命令：scrapy startproject douban 這是使用命令行來新建一個爬蟲項目，如下圖所示，圖片展示的項目名為pythonProject

接着在命令行輸入命令：cd douban 進入已生成的項目根目錄

接着繼續在終端鍵入命令：scrapy genspider douban_spider movie.douban.com 生成douban_spider爬蟲文件。

此時的項目結構如下圖所示：

2.明確目標

我們要練習的網站為：https://movie.douban.com/top250

假設，我們抓取top250電影的序列號，電影名，介紹，星級，評價數，電影描述選項

此時，我們在items.py文件中定義抓取的數據項，代碼如下：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 序列號
    serial_number = scrapy.Field();
    # 電影名
    movie_name = scrapy.Field();
    # 介紹
    introduce = scrapy.Field();
    # 星級
    star = scrapy.Field();
    # 評價數
    evaluate = scrapy.Field();
    # 描述
    describe = scrapy.Field();
    pass

3.接着，我們需要制作爬蟲以及存儲爬取內容

在douban_spider.py爬蟲文件編寫具體的邏輯代碼，如下：

# -*- coding: utf-8 -*-
import scrapy

from ..items import DoubanItem
class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    # 允許的域名
    allowed_domains = ['movie.douban.com']
    # 入口URL
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")
        #循環電影的條目
        for i_item in movie_list:
            #導入item，進行數據解析
            douban_item = DoubanItem()
            douban_item['serial_number'] = i_item.xpath(".//div[@class='item']//em/text()").extract_first()
            douban_item['movie_name'] =  i_item.xpath(".//div[@class='info']//div[@class='hd']/a/span[1]/text()").extract_first()
            #如果文件有多行進行解析
            content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
            for i_content in content:
                content_s ="".join( i_content.split())
                douban_item['introduce'] = content_s
            douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
            douban_item['describe'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
            print(douban_item)
            yield  douban_item
        #解析下一頁，取后一頁的XPATH
        next_link = response.xpath("//span[@class='next']/link/@href").extract()
        if next_link:
            next_link = next_link[0]
            yield  scrapy.Request("https://movie.douban.com/top250"+next_link,callback=self.parse)

此時不需要運行這個python文件，因為我們不是單獨使用它的，所以不用運行，允許會報錯，有關import引入的問題，關於主目錄的絕對路徑與相對路徑的問題，原因是我們使用了相對路徑“..items”，相關的內容感興趣的同學可以去網上查找有關這類問題的解釋。

4.存儲內容

將所爬取的內容存儲成json或csv格式的文件

在命令行輸入：scrapy crawl douban_spider -o test.json 或者 scrapy crawl douban_spider -o test.csv

將爬取到的數據存儲到json文件或者csv文件里。

在執行完爬取命令后，將鼠標的焦點給到項目面板時，即會顯示出生成的json文件或csv文件。打開json或csv文件后，如果里面什么內容都沒有，那么我們還需要進行一步的修改，修改代理USER_AGENT的內容，

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.8 Safari/537.36'

存儲到json文件里的話，所有的內容都會以十六進制的形式顯示出來，可以通過相應的方法進行轉碼，這里不過多的說明，如下圖：

而存儲在csv文件中，會直接將我們所要爬取的內容全部顯示出來，如下圖：

到此為止，我們已完成對網站特定內容的爬取，接下來，就需要對這些爬取的數據進行處理。

分割線----------------------------------------------------------------------------------------------------------------------分割線

Scraoy入門實例二---使用Pipeline實現

此次的實戰需要重新創建一個項目，還是需要安裝scrapy包，參考上面的內容，創建新項目的方法也參考上面的內容，這里不再重復贅述。

項目目錄結構如下圖所示：

一、Pipeline介紹

當我們通過Spider爬取數據，通過Item收集數據后，就要對數據進行一些處理了，因為我們爬取到的數據並不一定是我們想要的最終數據，可能還需要進行數據的清洗以及驗證數據的有效性。Scripy中的Pipeline組件就用於數據的處理，一個Pipeline組件就是一個包含特定接口的類，通常只負責一種功能的數據處理，在一個項目中可以同時啟用多個Pipeline。

二、在items.py中定義自己要抓取的數據

首先打開一個新的pycharm項目，通過終端建立新項目tutorial，在item中定義想要抓取的數據，例如電影名字，代碼如下：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    pass

class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    moiveName = scrapy.Field()

三、定義pipeline.py文件

每個item pipe組件是一個獨立的pyhton類，必須實現以process_item(self,item,spider)方法每個item pipeline組件都需要調用該方法，這個方法必須返回一個具有數據的dict,或者item對象，或者拋出DropItem異常，被丟棄的item將不會被之后的pipeline組件所處理。定義的pipelines.py代碼如下所示：

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class TutorialPipeline(object):
    def process_item(self, item, spider):
        return item

import time

class DoubanmoviePipeline(object):
    def process_item(self, item, spider):
        now = time.strftime('%Y-%m-%d', time.localtime())
        fileName = 'douban' + now + '.txt'
        with open(fileName, 'a', encoding='utf-8') as fp:
            fp.write(item['moiveName'][0]+"\n")
        return item

四、配置setting.py

由於這次使用了pipeline，所以需要我們在settings.py中打開pipelines通道注釋，在里面新增一條，pipelines中添加的記錄 ,如下圖所示：

五、寫爬蟲文件

在tutoral/spiders目錄下創建quotes_spider.py文件，目錄結構如下，並寫入初步的代碼：

quotes_spider.py代碼如下：

import scrapy

from items import DoubanmovieItem

class QuotesSpider(scrapy.Spider):

    name = "doubanSpider"
    allowed_domains = ['douban.com']
    start_urls = ['http://movie.douban.com/cinema/nowplaying',
                  'http://movie.douban.com/cinema/nowplaying/beijing/']

    def parse(self, response):
        print("--" * 20 )
        #print(response.body)
        print("==" * 20 )
        subSelector = response.xpath('//li[@class="stitle"]')
        items = []
        for sub in subSelector:
            #print(sub.xpath('normalize-space(./a/text())').extract())
            print(sub)
            item = DoubanmovieItem()
            item['moiveName'] = sub.xpath('normalize-space(./a/text())').extract()
            items.append(item)
        print(items)
        return items

六、通過啟動文件運行

在douban文件目錄下新建啟動文件 douban_spider_run.py (文件名稱可以另取)，並運行該文件,查看結果，編寫代碼如下：

from scrapy import cmdline
cmdline.execute("scrapy crawl doubanSpider".split())

最后，經過處理后的爬取數據如下圖所示（部分）：

最后，希望大家在編寫代碼的時候能夠細心點，不能馬虎，我在實驗的過程當中，就是因為將要引入的方法DoubanmovieItem寫成了DobanmovieItem，從而導致了整個程序的運行失敗，而且PyCharm還不告訴我哪里錯了，我到處搜問題解決方法也沒找到，最終核對了好多遍，生成方法時才發現，所以一定要細心。這個錯誤如下圖所示，它提示說找不到DobanmovieItem這個模塊，可能已經告訴我錯誤的地方了，因為我太菜了沒發現，所以才耗費較長時間，希望大家引以為戒！

到此為止，使用Scrapy進行抓取網頁內容，與對所抓取的內容進行清洗和處理的實驗已經完成，要求對這個過程當中的代碼與操作熟悉與運用，不會的去查找網上內容，消化吸收，記在腦子里，這才是真正學到知識，而不是照葫蘆畫瓢。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲數據采集 Python+Scrapy+Selenium數據采集爬蟲-----數據采集的基本原理 JAVA使用Gecco爬蟲抓取網頁內容(附Demo) 數據采集: scrapy-redis初始帶參數請求 [開源 .NET 跨平台 Crawler 數據采集爬蟲框架: DotnetSpider] [二] 基本使用 scrapy爬蟲成長日記之將抓取內容寫入mysql數據庫 Python3 爬蟲實例（一）-- 簡單網頁抓取社會化海量數據采集爬蟲框架搭建【Python爬蟲】拉鈎網招聘信息數據采集