标签【小爬虫系列】

玩玩小爬虫——抓取动态页面

在ajax横行的年代，很多网页的内容都是动态加载的，而我们的小爬虫抓取的仅仅是web服务器返回给我们的html，这其中就跳过了js加载的部分，也就是说爬虫抓取的网页是残缺的，不 ...

这一篇我们聊聊在页面抓取时应该注意到的几个问题。一：网页更新我们知道，一般网页中的信息是不断翻新的，这也要求我们定期的去抓这些新信息，但是这个“定期”该怎么理解，也就是多 ...

玩玩小爬虫——入门

前段时间做一个产品，盈利方式也就是卖数据给用户，用wpf包装一下，当然数据提供方是由公司定向爬虫采集的，虽然在实际工作中没有接触这一块，不过私下可以玩一玩，研究研究。既然要抓 ...

玩玩小爬虫——试搭小架构

第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机 ...