python 找出html中的所有链接（Xpath、正则两个版本）

本文转载自查看原文 2019-03-11 11:25 523 python匹配html中所有的链接

要在hrml文件中找出特定的内容，首先需要观察该内容是什么东西，在什么位置，这样才能找出来。

假设html的文件名称是:"1.html"、href属性全都在a标签里。

正则版：

#coding:utf-8
import re

with open('1.html','r') as f:
    data = f.read()

result = re.findall(r'href="(.*?)"',data)
for each in result:
    print each

Xpath版：

#coding:utf-8
from lxml import etree

with open('1.html', 'r') as f:
    data = f.read()

selector = etree.HTML(data)

result = selector.xpath('//a/@href')
for each in result:
    print each

1.html 自己随便找个链接这里的html丢失

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python每日一练(2):找出html中的所有链接（Xpath、正则两个版本） python中给定两个列表，怎么找出他们相同的元素和不同的元素？在windows中安装两个不同版本的Python 高效的找出两个List中的不同元素高效的找出两个List中的不同元素高效的找出两个List中的不同元素 xpath获取两个标签之间的所有标签找出两个点之间的所有路径(原创) python办公自动化-如何快速找出两个Excel表中数据差异 python：找出两个列表中相同和不同的元素(使用推导式)