【文章推荐】Python：网络爬虫相当利器

原文：Python：网络爬虫相当利器

网络爬虫，又称为网页蜘蛛 WebSpider ，非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造，那么我们这只爬虫，就是要在上边爬来爬去，顺便获得我们需要的资源。我们之所以能够通过百度或谷歌这样的搜索引擎检索到你的网页，靠的就是他们大量的爬虫每天在互联网上爬来爬去，对网页中的每个关键词进行索引，建立索引数据库。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依 ...

2017-11-18 11:51 0 4066 推荐指数：

查看详情

Python爬虫利器五之Selenium的用法

前言在上一节我们学习了 PhantomJS 的基本用法，归根结底它是一个没有界面的浏览器，而且运行的是 JavaScript 脚本，然而这就能写爬虫了吗？这又和Python有什么关系？说好的Python爬虫呢？库都学完了你给我看这个？客官别急，接下来我们介绍的这个工具，统统解决掉你的疑惑 ...

Python爬虫利器：Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。使用它来处理HTML页面就像JavaScript代码操作HTML DOM树一样方便。官方中文文档地址 1. 安装 1.1 安装 Beautiful Soup Beautiful Soup3 目前已经停止 ...

Python爬虫利器四之PhantomJS的用法

前言大家有没有发现之前我们写的爬虫都有一个共性，就是只能爬取单纯的html代码，如果页面是JS渲染的该怎么办呢？如果我们单纯去分析一个个后台的请求，手动去摸索JS渲染的到的一些结果，那简直没天理了。所以，我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。其中有一个比较常用 ...

Python爬虫利器六之PyQuery的用法

前言你是否觉得 XPath 的用法多少有点晦涩难记呢？你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢？你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢？你是 ...

Python爬虫利器二之Beautiful Soup的用法

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Be ...

python爬虫利器Selenium使用详解

简介：用pyhon爬取动态页面时普通的urllib2无法实现，例如下面的京东首页，随着滚动条的下拉会加载新的内容，而urllib2就无法抓取这些内容，此时就需要今天的主角selenium。 ...

Python爬虫利器一之Requests库的用法

前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。注：Python 版本依然基于 2.7 官方 ...

Python爬虫利器二之Beautiful Soup的用法

原文：Python：网络爬虫相当利器

相关推荐

相关标签