爬取今日熱榜百度熱搜TOP10


from urllib import request
import re
import pandas as pd
url = "https://tophub.today/n/Jb0vmloB1G"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
aaa = request.Request(url, headers=headers) #模擬請求頭,訪問網頁
bbb = request.urlopen(aaa).read().decode('utf-8') #請求今日熱榜百度熱搜網址
title=re.compile(r'itemid="[0-9]*">(.*?)</a>') #正則提取網頁中的今日熱議
num=re.compile(r'<td>(.*?)</td>') #正則提取網頁中的熱度
titles=title.findall(bbb)[0:10] #匹配今日熱議正則十次
nums=num.findall(bbb)[0:10] #匹配今日熱議正則十次
m={"今日熱議":titles,"熱度":nums}
file=pd.DataFrame(m)
print(file)

運行代碼

運行結果




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM