爬取静态网页

本文转载自查看原文 2020-03-06 15:35 722

爬取某导航网页全部网址

进入网站之后需要获取网站正确url

使用Chrome自带检查工具在网页右键--检查利用全局搜索(ctrl+f) 12306 获取数据存储文件 list

点击查看文件信息

得到url:http://xxxxx

同时得到response method 为post 在最下方得到 Request Payload信息

在Response栏获得json数据将其全选复制到json在线解析网站得到json数据正确格式并利于分析

根据所需数据修改代码

以下为代码示例,我只获取了分类名和网站名,然后将其写入txt文件中

import requests
url = 'http://xxxxxxxxxxx'   #获取网站正确url

data ={
   'fid': '167',
   'is_index': '0',
}
headers = {
   #请求头信息
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
response = requests.post(url=url,headers=headers,data=data).json()['data']

with open('wangzhan.txt','w',encoding='utf-8') as fp:
   for i in response:
       fp.write(i['name']+'\n')
       for i in i['web']:
           fp.write(i['name']+'\n'+i['url']+"\n")

            
print('下载完成')

以下为文档内容部分

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 一、python简单爬取静态网页爬虫入门（一）——静态网页爬取：批量获取高清壁纸网页源码爬取网页源码爬取 Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取 Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据 pyspider爬取网页实例 python爬取简单网页简单爬取网页源码 JAVA爬取网页邮箱