Python爬虫(开课吧学习总结)
1.爬虫入门
什么是爬虫:使用python代码模拟用户批量的发送网络请求,批量地获取数据
http:当用户在地址栏中输入了网址,这个发送网络请求的过程就是一个http,
get:不安全,明文传输,参数的长度是有限制的。
post:比较安全,数据整体没有长度限制,所以可以进行文件上传。
还有delete,put,head请求方法
发送网络请求(可以携带数据或者不携带数据)
GET将数据放到了参数里面。
post将数据放到了请求头里面
返回的数据
General:常规 Request URL:请求URL地址 Request Method:请求方法 Status Code:状态代码 Remote Address:远程站点地址 Referrer Policy:引用站点策略
请求头 Referer:标志这个请求是从哪里过来的,比如我们从想从A跳转到B,referer就是A,


DNS:域名解析服务商
爬虫的分类: 通用爬虫 聚焦爬虫
robots.txt:是否允许其他爬虫(通用爬虫)爬取某些内容,像百度,谷歌,微软浏览器都是采用通用爬虫,robots.txt就是用来显示通用爬虫的,

