長津湖堪稱今年票房最猛的電影了叭!截止21號票房已經突破50億!長津湖YYDS!
當然現在漲勢已經慢慢下來了,距離上次45億過去了一周才漲了五個億,上次咱們爬的是貓眼評論,那么我們就用Python來爬取豆瓣的電影評論,看看大家在豆瓣怎么說!
本文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理。
#兄弟們學習python,有時候不知道怎么學,從哪里開始學。 #掌握了基本的一些語法或者做了兩個案例后,不知道下一步怎么走,不知道如何去學習更加高深的知識。 #那么對於這些大兄弟們,我准備了大量的免費視頻教程,PDF電子書籍,以及視頻源的源代碼! #還會有大佬解答! #都在這個群里了 872937351 #歡迎加入,一起討論 一起學習!
基本開發環境
-
Python 3.8
-
Pycharm
相關模塊的使用
-
import csv
-
import requests
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
豆瓣的網站數據,沒有什么反爬,同樣也靜態網頁數據,所以很是簡單~
代碼展示
import requests import parsel import csv f = open('長津湖短評.csv', mode='a', encoding='utf-8-sig', newline='') csv_writer = csv.DictWriter(f, fieldnames=[ '用戶名', '是否看過', '推薦', '日期', '點贊', '內容', ]) csv_writer.writeheader() url = 'https://movie.douban.com/subject/25845392/comments?start=40&limit=20&status=P&sort=new_score' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36' } response = requests.get(url=url, headers=headers) selector = parsel.Selector(response.text) divs = selector.css('#comments div.comment-item') for div in divs: name = div.css('.comment-info a::text').get() # 用戶名 span = div.css('.comment-info span:nth-child(2)::text').get() # 是否看過 feel = div.css('.comment-info span:nth-child(3)::attr(title)').get() # 推薦 date = div.css('.comment-info span:nth-child(4)::text').get().strip() # 日期 content = div.css('.comment-content .short::text').get() # 內容 vote = div.css('.comment-vote span::text').get() # 點贊 dit = { '用戶名': name, '是否看過': span, '推薦': feel, '日期': date, '點贊': vote, '內容': content, } csv_writer.writerow(dit) print(dit)
.
