使用python爬取一個網頁里表格的內容

本文轉載自查看原文 2018-07-19 21:34 12259 python爬蟲

#--*--conding:utf-8 --*--
# Author: Gonggong
# 使用python爬取一個網頁中表格的內容，並把抓取到的內容以json格式保存到文件中

import requests
from lxml import etree
import json


# 獲取網頁源代碼
r = requests.get('http://ipwhois.cnnic.cn/bns/query/Query/ipwhoisQuery.do?queryOption=ipv4&txtquery=8.8.8.8')

# 使用xpath對爬取的源代碼進行處理
dom_tree = etree.HTML(r.content)
links = dom_tree.xpath("/html/body/center[1]/table[1]/tr/td/font")

# 取出links的單行、雙行的數據
res1 = [i.text for i in links[::2]]
res2 = [i.text for i in links[1::2]]

# 把兩行數據組合成在一起
result = tuple(zip(res1, res2))

# 使用json格式保存到文件中
json.dump(result, open('/tmp/xpath_get.txt', 'w'), ensure_ascii=False)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python使用BeautifulSoup爬取網頁信息 Python 使用selenium+webdriver爬取動態網頁內容 Python 爬取網頁中JavaScript動態添加的內容（一）學習使用Java的webmagic框架爬取網頁內容 PHP 爬取網頁中表格數據使用Requests庫簡單的爬取一個頁面內容 python 分別用python2和python3偽裝瀏覽器爬取網頁內容 Python3網絡爬蟲：requests爬取動態網頁內容【Python爬蟲】之爬取頁面內容、圖片以及用selenium爬取使用Java Jsoup爬取網頁內容（存入本地並從本地讀取）