用python爬取豆瓣電影Top 250

本文轉載自查看原文 2019-12-08 17:31 327

　　首先，打開豆瓣電影Top 250，然后進行網頁分析。找到它的Host和User-agent，並保存下來。　　然后，我們通過翻頁，查看各頁面的url，發現規律：

　　第一頁：https://movie.douban.com/top250?start=0&filter=

　　第二頁：https://movie.douban.com/top250?start=25&filter=

　　第三頁：https://movie.douban.com/top250?start=50&filter=

　　第四頁：https://movie.douban.com/top250?start=75&filter=

　　我們發現，每個頁面的url都是https://movie.douban.com/top250?start= +25+ &filter=的規律。如此，就可以開始寫代碼：

import requests
from bs4 import BeautifulSoup
def get_movie():
    headers={
        'Host': 'movie.douban.com',
        'User-Agent': 'Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 45.0.2454.101Safari / 537.36'
    } #防止反扒措施
    movie_list=[]
    for i in range(10):
        url='https://movie.douban.com/top250?start='+str(i*25) #各頁面url
        response=requests.get(url,headers=headers,timeout=10)
        soup=BeautifulSoup(response.text,'lxml')
        div_list=soup.find_all('div',class_='hd')
        for each in div_list:
            movie=each.a.span.text.strip()
            movie_list.append(movie)
    for j in movie_list:
        print(j) #按格式輸出電影名稱
get_movie()

　　下面給出運行結果：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python3爬取豆瓣top250電影 python爬取豆瓣電影top250 python爬取豆瓣top250電影源碼 Python爬蟲——爬取豆瓣電影Top250 python3 爬蟲---爬取豆瓣電影TOP250 爬取豆瓣電影 Top 250 數據爬取豆瓣電影Top250 Python開發爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據爬取豆瓣電影TOP250榜爬蟲實戰：爬取豆瓣電影top250