爬取今日热榜百度热搜TOP10

本文转载自查看原文 2020-03-20 10:30 715

from urllib import request
import re
import pandas as pd
url = "https://tophub.today/n/Jb0vmloB1G"
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
aaa = request.Request(url, headers=headers) #模拟请求头，访问网页
bbb = request.urlopen(aaa).read().decode('utf-8') #请求今日热榜百度热搜网址
title=re.compile(r'itemid="[0-9]*">(.*?)</a>') #正则提取网页中的“今日热议”
num=re.compile(r'<td>(.*?)</td>') #正则提取网页中的“热度”
titles=title.findall(bbb)[0:10] #匹配“今日热议”正则十次
nums=num.findall(bbb)[0:10] #匹配“今日热议”正则十次
m={"今日热议":titles,"热度":nums}
file=pd.DataFrame(m)
print(file)

运行代码

运行结果

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 爬取百度热搜榜爬取百度热搜爬取百度热榜爬取百度热搜榜以及数据分析爬取百度热搜风云榜数据爬取百度热搜榜及数据分析与可视化处理百度热搜数据爬取及分析今日百度热搜前十名 Python爬取百度热搜和数据处理爬取微博热搜榜