爬取靜態網頁


爬取某導航網頁全部網址

進入網站之后需要獲取網站正確url

使用Chrome自帶檢查工具 在網頁右鍵--檢查 利用全局搜索(ctrl+f) 12306 獲取數據存儲文件 list

 

 

 

點擊查看文件信息

 

 

得到url:http://xxxxx

同時得到response method 為post 在最下方得到 Request Payload信息

 

img

 

在Response欄獲得json數據 將其全選 復制到json在線解析網站 得到json數據正確格式 並利於分析img

 

 

 

 

 

 

 

 

根據所需數據 修改代碼

以下為代碼示例,我只獲取了分類名和網站名,然后將其寫入txt文件中

import requests
url = 'http://xxxxxxxxxxx'   #獲取網站正確url

data ={
  'fid': '167',
  'is_index': '0',
}
headers = {
  #請求頭信息
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
response = requests.post(url=url,headers=headers,data=data).json()['data']

with open('wangzhan.txt','w',encoding='utf-8') as fp:
  for i in response:
      fp.write(i['name']+'\n')
      for i in i['web']:
          fp.write(i['name']+'\n'+i['url']+"\n")

           
print('下載完成')

 

以下為文檔內容部分

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM