python 找出html中的所有鏈接（Xpath、正則兩個版本）

本文轉載自查看原文 2019-03-11 11:25 523 python匹配html中所有的鏈接

要在hrml文件中找出特定的內容，首先需要觀察該內容是什么東西，在什么位置，這樣才能找出來。

假設html的文件名稱是:"1.html"、href屬性全都在a標簽里。

正則版：

#coding:utf-8
import re

with open('1.html','r') as f:
    data = f.read()

result = re.findall(r'href="(.*?)"',data)
for each in result:
    print each

Xpath版：

#coding:utf-8
from lxml import etree

with open('1.html', 'r') as f:
    data = f.read()

selector = etree.HTML(data)

result = selector.xpath('//a/@href')
for each in result:
    print each

1.html 自己隨便找個鏈接這里的html丟失

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在windows中安裝兩個不同版本的Python 高效的找出兩個List中的不同元素 xpath獲取兩個標簽之間的所有標簽給定一個整數數組 nums，其中恰好有兩個元素只出現一次，其余所有元素均出現兩次。找出只出現一次的那兩個元素。正則匹配所有網頁鏈接找出不是兩個數組共有的元素 windows同時安裝python2和python3兩個版本算法-找出數組中兩個元素之和等於給定的目標值 JS找出兩個數組中不相同的元素 2020-07-18：給定一個無序數組和一個目標值，找出數組中兩個數之和等於目標值的所有組合，並指出其時間復雜度。