标签【爬虫技术】

常见浏览器User-Agent大全

下面是工作中需要用到的常见浏览器User-Agent字符串的收集整理，不断更新中。 OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. ...

最近在知乎上看到一个话题，说使用爬虫技术获取网易云音乐上的歌曲，甚至还包括付费的歌曲，哥瞬间心动了，这年头，好听的流行音乐或者经典老歌都开始收费了，只能听不能下载，着实很郁闷，现在机会来了，于是开始研 ...

爬虫抓取分页数据的简单实现

昨天，我们已经利用Jsoup技术实现了一个简单的爬虫，原理很简单，主要是要先分析页面，拿到条件，然后就去匹配url，采用dome解析的方式循环抓取我们需要的数据，从而即可轻松实现一个简单的爬虫。那么， ...

前言　　今天在测试爬虫项目时，发现了一个很严肃的问题，当爬取的网页编码格式为gb2312时，按照一般的办法转化为utf-8编码时总是乱码，PS:爬取的所有网页无论何种编码格式，都转化为utf-8格 ...

　　当我们利用Ｐython　scrapy框架写完脚本后，脚本已经可以稳定的进行数据的爬取，但是每次需要手动的执行，太麻烦，如果能自动运行，在自动关闭那就好了，经过小编研究，完全是可以实现的，今天小编介 ...

xpath高级用法及元素定位

用XPath精确定位节点元素&selenium使用Xpath定位之完整篇在利用XSL进行转换的过程中，匹配的概念非常重要。在模板声明语句 xsl:template ...

现在很多网站的api接口返回httpcode返回码是403提示禁止访问。如果您也遇到这样的情况,请先不要急着去修改网站相关的参数第一、先进api的网站。用浏览器访问，如果浏览器访问该api接口能成 ...

如何设置爬虫断点续传

　　有时候我们爬取数据跑了半天，突然报错了，例如网络中断，我们想继续爬取，不需程序从头开始爬取，可以采取下面的方案要想程序继续从断开的位置爬取，最好的方案就是将每次爬取的url存储到数据库中，程序 ...

最近在弄网页爬虫这方面的，上网看到关于htmlagilitypack搭配scrapysharp的文章，于是决定试一试~ 于是到https://www.nuget.org/packages/Scrap ...

# pypepeteer同样可以操作浏览器，和selenium具有同样的功能，但是很多反爬虫网站能检测到selenium，所以同样拿不到数据，那我们就得pypepeteer 以下是官方说明：　　 ...