爬虫篇-使用cookie,user-agent简单爬数据

本文转载自查看原文 2019-11-19 11:28 317

　　爬取网页数据有很多方法，我知道的就有：

1、scrapy框架，创建scrapy框架文件夹，在spider文件写上请求函数，文件保存函数等等

2、导入requests模块请求，写上请求函数和保存函数。

　　方法很多种，今天这章节是做简单的爬取方式了。根据cookie，user-agent请求数据。

1、导入requests模块

import requests

2、可以写一个函数，也可以直接写代码，本人觉得写函数会比较有秩序。def run(): headers = {

def run():
　　headers:{
#假装自己是浏览器 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36', #把登录的cookie复制进来 'Cookie': 'xxx', } #创建一个会话 session = requests.Session() #请求网页 response = session.get('https://i.51job.com/userset/my_51job.php',headers = headers) #改为网页的编码gbk形式，不然会乱码 #response.encoding='gbk' #a = response.text
保存成为txt文件，注意:查看网页编码，如果是'utf-8',那么f.write(response.content.decode('utf-8'))

　　with open('a.text','w') as f: f.write(response.content.decode('gbk'))

写完了函数，最后就要调用此函数。

if __name__=='__main__':
    run()

运行成功，和这个py文件同目录下就可以看到一个a.text文本，可以看到这个就是网页请求的内容了

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 爬虫中的User-Agent 使用与作用 python爬虫之如何随机更换User-Agent 常见User-Agent 常用替换User-Agent firefox修改user-agent 设置随机 User-Agent 随机生成user-agent selenium设置user-agent以及对于是否是浏览器内核进行反爬 Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫添加安卓端的User-Agent