花费 5 ms
玩玩小爬虫——抓取动态页面

在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就 跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不 ...

Tue Nov 06 08:00:00 CST 2012 23 35203
玩玩小爬虫——抓取时的几个小细节

这一篇我们聊聊在页面抓取时应该注意到的几个问题。 一:网页更新 我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个“定期”该怎么理解,也就是多 ...

Thu Nov 08 09:23:00 CST 2012 19 13648
玩玩小爬虫——入门

前段时间做一个产品,盈利方式也就是卖数据给用户,用wpf包装一下,当然数据提供方是由公司定向爬虫采集的,虽然在实际工作 中没有接触这一块,不过私下可以玩一玩,研究研究。 既然要抓 ...

Sat Nov 03 06:44:00 CST 2012 20 11459
玩玩小爬虫——试搭小架构

第一篇我们做了一个简单的页面广度优先来抓取url,很显然缺点有很多,第一:数据结构都是基于内存的,第二:单线程抓取 速度太慢,在实际开发中肯定不会这么做的,起码得要有序列化到硬盘的机 ...

Mon Nov 05 02:51:00 CST 2012 12 9463

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM