新建一個scrapy項目


此次是做一個豆瓣的top250信息的抓取

首先打開pycharm 

在pycharm的下端的Terminal中輸入scrapy startproject douban

此時系統就生成了以下文件(spiders文件下自帶一個_init_.py)還有一個_init_.py  items.py  middlewares.py  piplines.py  settings.py

我們從第一次的隨筆中知道scrapy框架只有三個東西需要我們操作一個是items、settings、還有個是等下創建的spider文件

首先打開items.py

items.py是我們定義數據結構的地方 以后哪些東西要存放就現在這定義好

我們需要的是序號,電影名稱,電影介紹,星級,電影評論,電影描述

可以模仿默認的# name = scrapy.Field()的形式創建自己需要的內容

然后我們更改settings.py

settings.py的內容比較多 首先找到ROBOTSTXT_OBEY = True

因為我們要做的事情是違背他這個規則的 所以第一件事是把True改成False

第二件事是將DOWNLOAD_DELAY = 3改成DOWNLOAD_DELAY = 0.5

因為這樣我們抓取得速度可以快很多

最重要的是USER_AGENT 

我們去我們目標網站:https://movie.douban.com/top250

按F12打開調試工具 按F5刷新頁面 找到我們需要的top250文本查看html

 

單擊top250,往下拉找到USER_AGENT

將內容拷貝到我們的settings.py中 這樣我們目前setting.py就完成了

還有爬蟲文件需要我們去創建 創建方式如下:

scrapy genspider 爬蟲名稱 域名

這時就生成了一個爬蟲文件

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM