Python爬蟲教程-31-創建 Scrapy 爬蟲框架項目


本篇是介紹在 Anaconda 環境下,創建 Scrapy 爬蟲框架項目的步驟,且介紹比較詳細

Python爬蟲教程-31-創建 Scrapy 爬蟲框架項目

  • 首先說一下,本篇是在 Anaconda 環境下,所以如果沒有安裝 Anaconda 請先到官網下載安裝
  • Anaconda 下載地址:https://www.anaconda.com/download/

Scrapy 爬蟲框架項目的創建

  • 0.打開【cmd】

  • 1.進入你要使用的 Anaconda 環境

    • 1.環境名可以在【Pycharm】的【Settings】下【Project:】下找到
      這里寫圖片描述

    • 2.使用命令:activate 環境名,例如:

      activate learn

    • 3.進入想要存放 scrapy 項目的目錄下 【注意】

    • 4.新建項目:scrapy startproject xxx項目名,例如:

      scrapy startproject new_project

  • 5.操作截圖:
    這里寫圖片描述

  • 6.在文件資源管理器打開該目錄,就會發現生成了好幾個文件
    這里寫圖片描述

  • 7.使用 Pycharm 打開項目所在目錄就可以了

這里我們就把項目創建好了,分析一下自動生成的文件的作用

Scrapy 爬蟲框架項目的開發

  • 0.使用 Pycharm 打開項目,截圖:
    這里寫圖片描述
  • 項目的開發的大致流程:
    • 1.明確需要爬取的目標/產品:編寫 item.py
    • 2.在 spider 目錄下載創建 python 文件制作爬蟲:
      • 地址 spider/xxspider.py 負責分解,提取下載的數據
    • 3.存儲內容:pipelines.py
  • Pipeline.py 文件
    • 對應 pipelines 文件
    • 爬蟲提取出數據存入 item 后,item 中保存的數據需要進一步處理,比如清洗,去蟲,存儲等
    • Pipeline 需要處理 process_item 函數
    • process_item
      • spider 提取出來的 item 作為參數傳入,同時傳入的還有 spider
      • 此方法必須實現
      • 必須返回一個 Item 對象,被丟棄的 item 不會被之后的 pipeline
  • _ init _:構造函數
    • 進行一些必要的參數初始化
  • open_spider(spider):
    • spider 對象對開啟的時候調用
  • close_spider(spider):
    • 當 spider 對象被關閉的時候調用
  • Spider 目錄
    • 對應的是文件夾 spider 下的文件
    • _ init _:初始化爬蟲名稱,start _urls 列表
    • start_requests:生成 Requests 對象交給 Scrapy 下載並返回 response
    • parse:根據返回的 response 解析出相應的 item,item 自動進入 pipeline:如果需要,解析 url,url自動交給 requests 模塊,一直循環下去
    • start_requests:此方法盡能被調用一次,讀取 start _urls 內容並啟動循環過程
    • name:設置爬蟲名稱
    • start_urls:設置開始第一批爬取的 url
    • allow_domains:spider 允許去爬的域名列表
    • start_request(self):只被調用一次
    • parse:檢測編碼
    • log:日志記錄

更多文章鏈接:Python 爬蟲隨筆


- 本筆記不允許任何個人和組織轉載


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM