爬虫抓取表格中的数据

本文转载自查看原文 2017-08-18 18:33 2033 python/ 抓取表格数据/ urllib2

有时候因为某些需求需要爬取某个网页中某个表格里的数据，这时候如果这个页面只有这一个表格的时候，那么抓取就比较容易了，但是当这个页面中有大量的表格的时候，再使用之前的方法，就会发现虽然也能抓取到要的数据，但是还有一大堆冗余。

这时候，就可以使用下面这种方法

就以这个网页里的表格为例

#coding:utf-8

import re
import urllib2

url='http://58921.com/'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}

request=urllib2.Request(url,headers=header)
page_code=urllib2.urlopen(request).read()

# 从网页源码中找到你要抓取表格的下列信息

# 表格开头
start_code='<table class="table table table-bordered table-condensed">'
# 表格结尾
end_code='</tbody>'
# 表格中要抓取的数据
find_code='<td><a href=".*?" title=".*?">(.*?)</a></td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>'

# 这里通过 start和end指定在整个页面中你所寻找的表格
start=page_code.find(start_code)
end=page_code.find(end_code)
find=page_code[start:end]

final_find=re.findall(find_code,find)

for x in final_find:
    print ','.join(x)

print 'finish'

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 爬虫原理与数据抓取-----（了解）通用爬虫和聚焦爬虫爬虫的增量式抓取和数据更新【转】Python爬虫：抓取新浪新闻数据 python爬虫数据抓取方法汇总 JAVA爬虫抓取页面的URL数据爬虫与Python：（四）爬虫进阶一之数据抓取——1.Ajax简介 Python爬虫：抓取手机APP的数据通过爬虫抓取链家二手房数据 python爬虫---实现项目(二) 分析Ajax请求抓取数据 PuppeteerSharp+AngleSharp的爬虫实战之汽车之家数据抓取