python 找出html中的所有鏈接(Xpath、正則兩個版本)


要在hrml文件中找出特定的內容,首先需要觀察該內容是什么東西,在什么位置,這樣才能找出來。

假設html的文件名稱是:"1.html"、href屬性全都在a標簽里。

正則版:

#coding:utf-8
import re

with open('1.html','r') as f:
    data = f.read()

result = re.findall(r'href="(.*?)"',data)
for each in result:
    print each

Xpath版:

#coding:utf-8
from lxml import etree

with open('1.html', 'r') as f:
    data = f.read()

selector = etree.HTML(data)

result = selector.xpath('//a/@href')
for each in result:
    print each

1.html  自己隨便找個鏈接  這里的html丟失


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM