标签【爬虫基础】

1. 验证码识别随着爬虫的发展，越来越多的网站开始采用各种各样的措施来反爬虫，其中一个措施便是使用验证码。随着技术的发展，验证码也越来越花里胡哨的了。最开始就是几个数字随机组成的图像验证码，后来加 ...

Python Scrapy 验证码登录处理

一、Form表单分析　　以豆瓣登录页面为例分析，豆瓣登录页是：https://accounts.douban.com/login，浏览器打开之后查看源码，查找登录的form表单HTML结构。如下 ...

requests文档首先需要安装：pip install requests get请求最基本的get：添加headers及查询参数： post请求 ...

原始代码错误如图修改原始代码成功运行！！！！！！ ...

异步网络模块之aiohttp的使用(一)

异步网络模块之aiohttp的使用(一) 平时我们也许用的更多的是requests模块，或者是requests_hml模块，但是他们都属于阻塞类型的不支持异步，速度很难提高，于是后来 ...

爬虫(十)：AJAX、爬取AJAX数据

1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”（异步JavaScript和XML）可以使网页实现异步更新，就是不重新加载整个网 ...

urllib 中的post请求

import urllib.requestimport urllib.parse url = 'http://fanyi.baidu.com/v2transapi' word = 'meizi' ...

通过前一节得出地址可能的构建规律，如下： https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ks ...

正则匹配：　　　规则　　单字符：　　　　. : 除换行以外所有字符　　　　[] ：[aoe] [a-w] 匹配集合中任意一个字符　　　　\d ：数字 [0-9] 　　　　\D : 非数字 ...

1. Scrapy通用爬虫通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个Spider则可能包含很多重复代码。如果我们将各个站 ...