正则和xpath在网页中匹配字段的效率比较

本文转载自查看原文 2017-12-21 11:08 1893 爬虫相关问题

1. 测试页面是 https://www.hao123.com/，这个是百度的导航

2. 为了避免网络请求带来的差异，我们把网页下载下来，命名为html，不粘贴其代码。

3.测试办法：

　　我们在页面中找到百度新闻关键字的链接，为了能更好的对比，使程序运行10000次，比较时间差异:

　　1.正则编码及其时间　　　

start_time = time.time()
for i in range(0,10000):
    baidu_news = re.findall('腾讯新闻</a></span><span><a class="sitelink mainlink singglelink" cls="xw,n" alog-custom="ind:xw,sal:0,atd:" href="(.*?)">百度新闻</a>',html)[0]
    print baidu_news

end_time = time.time()
print "程序运行时间是：",end_time - start_time

　　运行时间：6.5 秒钟

　　　　2.xpath 编码及其时间

start_time = time.time()
selector = etree.HTML(html) for i in range(0,10000):
    content=selector.xpath('//*[@id="coolsite-top"]/div[4]/span[3]/a/@href')[0]
    print content

end_time = time.time()
print "程序运行时间是：",end_time - start_time

　　运行时间：17.39 秒钟

总结：其中 selector = etree.HTML(html) 将源码转化为能被XPath匹配的格式，这个过程失比较耗时的。

结论：正则效率优于xpath

如有异议，请联系作者，谢谢

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 正则，bs4 ,xpath 和jsonpath 的匹配规则在网页中嵌套网页的方法（frame）正则匹配所有网页链接使用JWPlayer在网页中嵌入视频 office 文件在网页中显示在网页html中嵌入特殊字体如何在网页中添加 jQuery。 JS在网页制作中的应用如何在网页中执行自己的脚本 awk 正则匹配指定字段次数统计