使用python爬取流浪地球影評並制作詞雲,看看別人都說了些說什么


蹭個熱度,看完電影后爬一下影評並作出詞雲。
img
本次影評取自豆瓣:
https://movie.douban.com/subject/26266893/
img

抓包

首先是拿到訪問的url,一般先使用chrome瀏覽器自帶的F12中的網絡部分進行測試。好巧不巧的,點擊XHR后直接拿到數據了,那就不搞什么亂七八糟的別的了。
img
下面開始分析這個請求的URL地址

https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P&comments_only=1

和搜索《流浪地球》結果的URL進行對比發現域名+subject+26266893都是一樣的,所以這一塊就是一個影片的唯一標示碼了。

點擊下一頁抓包可以發現

start=40

,顯然start就是顯示的開始條數。然后去除后面的拼接部分大膽的使用以下地址:

https://movie.douban.com/subject/26266893/comments?start=20&limit=20
https://movie.douban.com/subject/26266893/comments?start=40&limit=20
...

所以如果爬取全部的話應該是

while True:
    url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20'
    requests.get(url)
    i += 1

當然這段代碼中缺少了一個終止條件,由於沒有直觀的頁碼顯示,所以按照正常邏輯來說,當拿不到數據的時候,代碼就可以結束了。

數據解析

img

從IDE或者抓包工具中都能看到抓去到的東西的內容是個html

使用工具Xpath Helper可以獲取到對應的Xpath是

//*[@id="comments"]/div/div[2]/p/span/text()

img

導入

from lxml import etree

使用以下幾行就能獲取到內容

from lxml import etree

response = requests.get(url).content  # 獲取網頁源碼
html = etree.HTML(response)  # 將網頁源碼轉換為XPath可以解析的格式
html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')

img

跳出While循環的條件

所以從上可以看出跳出While循環的條件就是拿到的內容為空
實際測試發現到12頁之后就會出行

img

采用最簡單的cookie來進行登錄操作

img

把這里的cookie拿出來用就行了

獲取數據部分代碼

import time
import requests
from lxml import etree

i = 1
cookies = {
    'cookie': '_ga=GA1.2.368359059.1504513008; gr_user_id=70cd8d8e-33f4-451f-9d2f-485e0972848b; _vwo_uuid_v2=DA531159C0543E8ED34CDA9307F4F5D42|952eca647e4324910504987dd6b3b16c; viewed="25862578"; douban-fav-remind=1; bid=BbpSXh-2l0I; UM_distinctid=1688ebe76ed917-00fc3d8ad313ab-10306653-13c680-1688ebe76eed09; ll="118172"; CNZZDATA1272964020=1342263888-1524923548-https%253A%252F%252Fwww.baidu.com%252F%7C1549549736; ap_v=0,6.0; __utma=30149280.368359059.1504513008.1548583074.1549551675.6; __utmc=30149280; __utmz=30149280.1549551675.6.5.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/search; __utmb=30149280.1.10.1549551675; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1549554516%2C%22https%3A%2F%2Fopen.weixin.qq.com%2Fconnect%2Fqrconnect%3Fappid%3Dwxd9c1c6bbd5d59980%26redirect_uri%3Dhttps%253A%252F%252Fwww.douban.com%252Faccounts%252Fconnect%252Fwechat%252Fcallback%26response_type%3Dcode%26scope%3Dsnsapi_login%26state%3DBbpSXh-2l0I%252523douban-web%252523https%25253A%252F%252Fwww.douban.com%252Fsearch%25253Fq%25253D%2525E6%2525B5%252581%2525E6%2525B5%2525AA%2525E5%25259C%2525B0%2525E7%252590%252583%22%5D; _pk_ses.100001.8cb4=*; douban-profile-remind=1; _pk_id.100001.8cb4=d2d47adf74234a9c.1504513005.8.1549554548.1549551671.; dbcl2="149765164:WENJVMTKslo"'}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
f = open('wandering.txt', 'w')
while True:
    url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20'
    response = requests.get(url, cookies=cookies, headers=headers).content 
    html = etree.HTML(response)
    new_text_list = html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')
    f.writelines(new_text_list)
    if not new_text_list:
        break
    else:
        time.sleep(0.25)
        i += 1
        print(f'正在爬取第{20*i}條內容')
f.close()

img

制作詞雲

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author:zhongxin
# datetime:2019/2/7 11:57 PM
import re  # 正則表達式庫
import collections  # 詞頻統計庫
import numpy as np  # numpy數據處理庫
import jieba  # 結巴分詞
import wordcloud  # 詞雲展示庫
from PIL import Image  # 圖像處理庫
import matplotlib.pyplot as plt  # 圖像展示庫

with open('wandering.txt') as f:
    string_data = f.read()
# 文本預處理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定義正則表達式匹配模式
string_data = re.sub(pattern, '', string_data)  # 將符合模式的字符去除

# 文本分詞
seg_list_exact = jieba.cut(string_data, cut_all=False)  # 精確模式分詞
object_list = []
remove_words = [u'的', u',', u'和', u'是', u'隨着', u'對於', u'對', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了',
                u'通常', u'如果', u'我', u'需要',u'也',u'電影','就']  # 自定義去除詞庫

for word in seg_list_exact:  # 循環讀出每個分詞
    if word not in remove_words:  # 如果不在去除詞庫中
        object_list.append(word)  # 分詞追加到列表

# 詞頻統計
word_counts = collections.Counter(object_list)  # 對分詞做詞頻統計
word_counts_top10 = word_counts.most_common(10)  # 獲取前10最高頻的詞
print(word_counts_top10)  # 輸出檢查

# 詞頻展示
mask = np.array(Image.open('wordcloud.jpg'))  # 定義詞頻背景
wc = wordcloud.WordCloud(
    font_path='/System/Library/Fonts/STHeiti Medium.ttc',  # 設置字體格式
    mask=mask,  # 設置背景圖
    max_words=200,  # 最多顯示詞數
    max_font_size=100  # 字體最大值
)

wc.generate_from_frequencies(word_counts)  # 從字典生成詞雲
image_colors = wordcloud.ImageColorGenerator(mask)  # 從背景圖建立顏色方案
wc.recolor(color_func=image_colors)  # 將詞雲顏色設置為背景圖方案
plt.imshow(wc)  # 顯示詞雲
plt.axis('off')  # 關閉坐標軸
plt.show()  # 顯示圖像

img

數據獲取部分代碼

img

詞雲部分代碼

img

img

img

本人對於Python學習創建了一個小小的學習圈子,為各位提供了一個平台,大家一起來討論學習Python。歡迎各位到來Python學習群:`923414804`一起討論視頻分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM