Python爬蟲教程-31-創建 Scrapy 爬蟲框架項目

本文轉載自查看原文 2018-09-06 21:14 787 Python 爬蟲

本篇是介紹在 Anaconda 環境下，創建 Scrapy 爬蟲框架項目的步驟，且介紹比較詳細

Python爬蟲教程-31-創建 Scrapy 爬蟲框架項目

首先說一下，本篇是在 Anaconda 環境下，所以如果沒有安裝 Anaconda 請先到官網下載安裝
Anaconda 下載地址：https://www.anaconda.com/download/

Scrapy 爬蟲框架項目的創建

0.打開【cmd】
1.進入你要使用的 Anaconda 環境
- 1.環境名可以在【Pycharm】的【Settings】下【Project：】下找到
- 2.使用命令：activate 環境名，例如：
  
  activate learn
- 3.進入想要存放 scrapy 項目的目錄下 【注意】
- 4.新建項目：scrapy startproject xxx項目名，例如：
  
  scrapy startproject new_project
5.操作截圖：
6.在文件資源管理器打開該目錄，就會發現生成了好幾個文件
7.使用 Pycharm 打開項目所在目錄就可以了

這里我們就把項目創建好了，分析一下自動生成的文件的作用

Scrapy 爬蟲框架項目的開發

0.使用 Pycharm 打開項目，截圖：
項目的開發的大致流程：
- 1.明確需要爬取的目標/產品：編寫 item.py
- 2.在 spider 目錄下載創建 python 文件制作爬蟲：
  - 地址 spider/xxspider.py 負責分解，提取下載的數據
- 3.存儲內容：pipelines.py
Pipeline.py 文件
- 對應 pipelines 文件
- 爬蟲提取出數據存入 item 后，item 中保存的數據需要進一步處理，比如清洗，去蟲，存儲等
- Pipeline 需要處理 process_item 函數
- process_item
  - spider 提取出來的 item 作為參數傳入，同時傳入的還有 spider
  - 此方法必須實現
  - 必須返回一個 Item 對象，被丟棄的 item 不會被之后的 pipeline
_ init _：構造函數
- 進行一些必要的參數初始化
open_spider(spider)：
- spider 對象對開啟的時候調用
close_spider(spider)：
- 當 spider 對象被關閉的時候調用
Spider 目錄
- 對應的是文件夾 spider 下的文件
- _ init _：初始化爬蟲名稱，start _urls 列表
- start_requests：生成 Requests 對象交給 Scrapy 下載並返回 response
- parse：根據返回的 response 解析出相應的 item，item 自動進入 pipeline：如果需要，解析 url，url自動交給 requests 模塊，一直循環下去
- start_requests：此方法盡能被調用一次，讀取 start _urls 內容並啟動循環過程
- name：設置爬蟲名稱
- start_urls：設置開始第一批爬取的 url
- allow_domains：spider 允許去爬的域名列表
- start_request(self)：只被調用一次
- parse：檢測編碼
- log：日志記錄

更多文章鏈接：Python 爬蟲隨筆

- 本筆記不允許任何個人和組織轉載

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲框架—Scrapy安裝及創建項目 Scrapy創建爬蟲項目 python學習之-用scrapy框架來創建爬蟲(spider) python爬蟲之Scrapy框架 python爬蟲框架——scrapy Python爬蟲教程-30-Scrapy 爬蟲框架介紹 python爬蟲之Scrapy框架 python爬蟲Scrapy框架之增量式爬蟲 Python Scrapy 爬蟲框架實例（一） python爬蟲之Scrapy框架(CrawlSpider)