scrapy爬蟲簡單案例（簡單易懂適合新手）

本文轉載自查看原文 2022-04-02 22:33 1064

爬取所有的電影名字，類型，時間等信息

1.准備工作

爬取的網頁 https://www.ddoutv.com/f/27-1.html

創建項目

win + R 打開cmd輸入

scrapy startproject 項目名

然后在pycharm終端輸入

scrapy genspider 類名 xxx.com
一個爬蟲類就創建好了

2.思路分析

我們爬取全站數據首先要將分頁的url規律找到
因為我們的數據在二級頁碼，所以需要在一級頁面里面拿到所以的二級頁碼url再進行請求
二級頁碼url拿到后就可以開始寫xpath獲取需要的數據了*
具體注釋在代碼內
代碼如下
`import scrapy

from move.items import MoveItem

class TestSpider(scrapy.Spider):
name = 'Test'

# allowed_domains = ['xxx.con']
def start_requests(self):
    # 有4896頁數據所有循環請求
    for i in range(1, 4897):
        # html分頁符用i代替
        start_urls = f'https://www.ddoutv.com/f/27-{i}.html'
        # 手動請求url
        yield scrapy.Request(url=start_urls, callback=self.parse)

def parse(self, response, **kwargs):
    # 爬取所有的二級頁面的url
    all_a = response.xpath('//div[@class="stui-pannel-box"]/div[@class="stui-pannel_bd"]/ul/li')
    # 遍歷出來
    for li in all_a:  # type:scrapy.Selector
        link = li.xpath('./div/a/@href').extract()[0]
        # 將url拼接完整
        links = response.urljoin(link)
        # 回調
        yield scrapy.Request(url=links, callback=self.reques)

def reques(self, response):
    # 獲取二級頁面的數據
    all_name = response.xpath('//div[@class="stui-content"]/div[@class="container"]/div[@class="row"]/div/div[2]')
    for i in all_name:
        name = i.xpath('./h1/text()').extract_first(default=0)
        print(name)
        types = i.xpath('./p[1]/a[1]/text()').extract_first(default=0)
        print(types)
        address = i.xpath('./p[1]/a[2]/text()').extract_first(default=0)
        print(address)
        year = i.xpath('./p[1]/a[3]/text()').extract_first(default=0)
        print(year)
        actor = i.xpath('./p[2]/text()').extract_first(default=0)
        print(actor)
        director = i.xpath('./p[3]/text()').extract_first(default=0)
        print(director)
        update = i.xpath('./p[4]/text()').extract_first(default=0)
        print(update)`

3.運行結果圖

到此一個簡單的scrapy爬取項目就完成啦！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 新手必學Python爬蟲之Scrapy框架案例詳解一個簡單的前后端分離項目，適合新手練手最簡單新手vuex案例（一） php+mysql簡單留言，適合新手最簡單的原生js輪播圖（適合新手）最簡單的html輪播圖制作適合新手 JS代碼的簡單重構與優化（適合新手）做一個簡單的scrapy爬蟲 Scrapy爬蟲框架實戰案例（適合小白人門） Python Scrapy 爬蟲簡單教程

scrapy爬蟲簡單案例（簡單易懂 適合新手）

爬取所有的電影名字，類型，時間等信息

到此一個簡單的scrapy爬取項目就完成啦！

免責聲明！

scrapy爬蟲簡單案例（簡單易懂適合新手）