# Python爬虫(开课吧学习总结)


Python爬虫(开课吧学习总结)

1.爬虫入门

什么是爬虫:使用python代码模拟用户批量的发送网络请求,批量地获取数据

http:当用户在地址栏中输入了网址,这个发送网络请求的过程就是一个http,

get:不安全,明文传输,参数的长度是有限制的。

post:比较安全,数据整体没有长度限制,所以可以进行文件上传。

还有delete,put,head请求方法

发送网络请求(可以携带数据或者不携带数据)

GET将数据放到了参数里面。

post将数据放到了请求头里面

返回的数据

General:常规 Request URL:请求URL地址 Request Method:请求方法 Status Code:状态代码 Remote Address:远程站点地址 Referrer Policy:引用站点策略

请求头 Referer:标志这个请求是从哪里过来的,比如我们从想从A跳转到B,referer就是A,

DNS:域名解析服务商

爬虫的分类: 通用爬虫 聚焦爬虫

robots.txt:是否允许其他爬虫(通用爬虫)爬取某些内容,像百度,谷歌,微软浏览器都是采用通用爬虫,robots.txt就是用来显示通用爬虫的,


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM