Python每日一练(2):找出html中的所有链接（Xpath、正则两个版本）

本文转载自查看原文 2016-01-20 11:29 1714 Python

要在hrml文件中找出特定的内容，首先需要观察该内容是什么东西，在什么位置，这样才能找出来。

假设html的文件名称是:"1.html"、href属性全都在a标签里。

正则版：

#coding:utf-8
import re

with open('1.html','r') as f:
    data = f.read()

result = re.findall(r'href="(.*?)"',data)
for each in result:
    print each

Xpath版：

#coding:utf-8
from lxml import etree

with open('1.html', 'r') as f:
    data = f.read()

selector = etree.HTML(data)

result = selector.xpath('//a/@href')
for each in result:
    print each

Xpath版比正则版多了一行····，这个html文件似乎有点长贴上来的时候显示502，求解。

似乎编辑器没有上传附件的地方？

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python每日一练(1) Python每日一练------内置函数+内置变量+内置模块《oracle每日一练》oracle截取字符的函数 python中给定两个列表，怎么找出他们相同的元素和不同的元素？ linux命令每日一练:find与rm实现查找并删除目录或文件高效的找出两个List中的不同元素高效的找出两个List中的不同元素 python——快速找出两个电子表中数据的差异 python 找出两个列表的相同元素与不同元素找出1-100中缺失的两个数