今日百度熱搜前十名

本文轉載自查看原文 2020-03-20 17:19 11339

頁面分析

1.在瀏覽器中輸入百度熱搜風雲網網址http://top.baidu.com/buzz?b=1&fr=topindex，點擊今日熱搜

2.查看頁面源代碼，查詢需要的標簽屬性關鍵字

3.程序實現

import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'http://top.baidu.com/buzz?b=341&c=513'
#爬蟲請求頭信息
headers = {'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
#發起一個GET請求
res=requests.get(url,timeout=30)
res.encoding=res.apparent_encoding#設置編碼標准
soup=BeautifulSoup(res.text,'html.parser')#采用BeautifulSoup類解析網頁，使用html.parser解析器
#創建列表
list1=[]
list2=[]
for x in soup.find_all('td',class_="keyword"):#for語句查找標簽
    list1.append(x.get_text().strip())
for y in soup.find_all('td',class_= "last"):#for語句查找標簽
    list2.append(y.get_text().strip())
data=[list1,list2]
df=pd.DataFrame(data,index=["關鍵詞","搜索指數"])
print(df.T)

4.獲取數據

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬取今日熱榜微博的前十名熱點信息數據爬取今日熱榜百度熱搜TOP10 爬取百度熱搜 Kali Linux中前十名的Wifi攻擊工具 centos查看占用內存前十名的程序爬取百度熱搜榜百度熱搜數據爬取及分析看你想看的，不受打擾地工作（瀏覽器屏蔽百度熱搜，去百度熱搜）（轉譯）2019年WEB漏洞掃描工具和軟件前十名推薦 Linux查看系統內存/CPU占用前十名的進程