Python爬取網易雲熱歌榜所有音樂及其熱評


獲取特定歌曲熱評:

首先,我們打開網易雲網頁版,擊排行榜,然后點擊左側雲音樂熱歌榜,如圖:
在這里插入圖片描述
關於如何抓取指定的歌曲的熱評,參考這篇文章,很詳細,對小白很友好:

手把手教你用Python爬取網易雲40萬+評論

下圖是用上文的方法找到熱評后,確認下這條確實包含着熱評,hotComments就是我們要找的熱門評論:
在這里插入圖片描述

在這里插入圖片描述
到此為止,我們如何抓取網易雲音樂的熱門評論已經分析完了,我們再分析一下如何獲取雲音樂熱歌榜中所有歌曲的信息。


獲取熱榜全部歌曲

同樣F12大法。這次選all,因為是找歌單,仔細觀察,很容易定位到這個嫌犯:toplist?id=3778678
在這里插入圖片描述

點進去看下,預覽一下該請求返回的結果,哈哈,就你啦!
在這里插入圖片描述
heads:
在這里插入圖片描述
request headers在這里插入圖片描述
現在看response:
在這里插入圖片描述
太亂了,格式化一下,然后往下翻:
在這里插入圖片描述

在這里插入圖片描述
這樣就好找了,框框里面就是包含歌曲信息的代碼。

因此,我們只需要將該請求的代碼中,將包含信息的代碼篩選出來。

我們在這里使用正則表達式進行數據篩選。

通過觀察特點,我們可以通過兩次正則表達式的篩選,將我們需要的歌曲信息提取出來。

第一次正則表達式如下:

<ul class="f-hide"><li><a href="/song\?id=\d*?">.*</a></li></ul>

第二次正則表達式將需要的歌曲信息提取出來,我們需要歌曲的歌名和id,對應的正則表達式如下:

獲取歌名:

<li><a href="/song\?id=\d*?">(.*?)</a></li>

獲取歌曲的id:

<li><a href="/song\?id=(\d*?)">.*?</a></li>

 

完整代碼:

 1 #!/usr/bin/env python3
 2 # -*- coding: utf-8 -*-
 3 
 4 import re
 5 import urllib.request
 6 import urllib.error
 7 import urllib.parse
 8 import json
 9 
10 
11 def get_all_hotSong():  # 獲取熱歌榜所有歌曲名稱和id
12     url = 'http://music.163.com/discover/toplist?id=3778678'  # 網易雲雲音樂熱歌榜url
13     header = {  # 請求頭部
14         'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
15     }
16     request = urllib.request.Request(url=url, headers=header)
17     html = urllib.request.urlopen(request).read().decode('utf8')  # 打開url
18     html = str(html)  # 轉換成str
19     pat1 = r'<ul class="f-hide"><li><a href="/song\?id=\d*?">.*</a></li></ul>'  # 進行第一次篩選的正則表達式
20     result = re.compile(pat1).findall(html)  # 用正則表達式進行篩選
21     result = result[0]  # 獲取tuple的第一個元素
22 
23     pat2 = r'<li><a href="/song\?id=\d*?">(.*?)</a></li>'  # 進行歌名篩選的正則表達式
24     pat3 = r'<li><a href="/song\?id=(\d*?)">.*?</a></li>'  # 進行歌ID篩選的正則表達式
25     hot_song_name = re.compile(pat2).findall(result)  # 獲取所有熱門歌曲名稱
26     hot_song_id = re.compile(pat3).findall(result)  # 獲取所有熱門歌曲對應的Id
27 
28     return hot_song_name, hot_song_id
29 
30 
31 def get_hotComments(hot_song_name, hot_song_id):
32     url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_' + hot_song_id + '?csrf_token='  # 歌評url
33     header = {  # 請求頭部
34         'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
35     }
36     # post請求表單數據
37     data = {
38         'params': 'zC7fzWBKxxsm6TZ3PiRjd056g9iGHtbtc8vjTpBXshKIboaPnUyAXKze+KNi9QiEz/IieyRnZfNztp7yvTFyBXOlVQP/JdYNZw2+GRQDg7grOR2ZjroqoOU2z0TNhy+qDHKSV8ZXOnxUF93w3DA51ADDQHB0IngL+v6N8KthdVZeZBe0d3EsUFS8ZJltNRUJ',
39         'encSecKey': '4801507e42c326dfc6b50539395a4fe417594f7cf122cf3d061d1447372ba3aa804541a8ae3b3811c081eb0f2b71827850af59af411a10a1795f7a16a5189d163bc9f67b3d1907f5e6fac652f7ef66e5a1f12d6949be851fcf4f39a0c2379580a040dc53b306d5c807bf313cc0e8f39bf7d35de691c497cda1d436b808549acc'}
40     postdata = urllib.parse.urlencode(data).encode('utf8')  # 進行編碼
41     request = urllib.request.Request(url, headers=header, data=postdata)
42     reponse = urllib.request.urlopen(request).read().decode('utf8')
43     json_dict = json.loads(reponse)  # 獲取json
44     hot_commit = json_dict['hotComments']  # 獲取json中的熱門評論
45 
46     num = 0
47     fhandle = open('./song_comments', 'a', encoding='utf-8')  # 寫入文件
48     fhandle.write(hot_song_name + ':' + '\n')
49 
50     for item in hot_commit:
51         num += 1
52         fhandle.write(str(num) + '.' + item['content'] + '\n')
53     fhandle.write('\n==============================================\n\n')
54     fhandle.close()
55 
56 
57 hot_song_name, hot_song_id = get_all_hotSong()  # 獲取熱歌榜所有歌曲名稱和id
58 
59 num = 0
60 while num < len(hot_song_name):  # 保存所有熱歌榜中的熱評
61     print('正在抓取第%d首歌曲熱評...' % (num + 1))
62     get_hotComments(hot_song_name[num], hot_song_id[num])
63     print('第%d首歌曲熱評抓取成功' % (num + 1))
64     num += 1

 

運行:
在這里插入圖片描述

爬下來的:
在這里插入圖片描述
對比:
在這里插入圖片描述

在這里插入圖片描述

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM