python 找出html中的所有链接(Xpath、正则两个版本)


要在hrml文件中找出特定的内容,首先需要观察该内容是什么东西,在什么位置,这样才能找出来。

假设html的文件名称是:"1.html"、href属性全都在a标签里。

正则版:

#coding:utf-8
import re

with open('1.html','r') as f:
    data = f.read()

result = re.findall(r'href="(.*?)"',data)
for each in result:
    print each

Xpath版:

#coding:utf-8
from lxml import etree

with open('1.html', 'r') as f:
    data = f.read()

selector = etree.HTML(data)

result = selector.xpath('//a/@href')
for each in result:
    print each

1.html  自己随便找个链接  这里的html丢失


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM