爬取靜態網頁

本文轉載自查看原文 2020-03-06 15:35 722

爬取某導航網頁全部網址

進入網站之后需要獲取網站正確url

使用Chrome自帶檢查工具在網頁右鍵--檢查利用全局搜索(ctrl+f) 12306 獲取數據存儲文件 list

點擊查看文件信息

得到url:http://xxxxx

同時得到response method 為post 在最下方得到 Request Payload信息

在Response欄獲得json數據將其全選復制到json在線解析網站得到json數據正確格式並利於分析

根據所需數據修改代碼

以下為代碼示例,我只獲取了分類名和網站名,然后將其寫入txt文件中

import requests
url = 'http://xxxxxxxxxxx'   #獲取網站正確url

data ={
   'fid': '167',
   'is_index': '0',
}
headers = {
   #請求頭信息
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
response = requests.post(url=url,headers=headers,data=data).json()['data']

with open('wangzhan.txt','w',encoding='utf-8') as fp:
   for i in response:
       fp.write(i['name']+'\n')
       for i in i['web']:
           fp.write(i['name']+'\n'+i['url']+"\n")

            
print('下載完成')

以下為文檔內容部分

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一、python簡單爬取靜態網頁爬蟲入門（一）——靜態網頁爬取：批量獲取高清壁紙網頁源碼爬取網頁源碼爬取 Python爬蟲實踐~BeautifulSoup+urllib+Flask實現靜態網頁的爬取 Python開發爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據 pyspider爬取網頁實例 python爬取簡單網頁簡單爬取網頁源碼 JAVA爬取網頁郵箱