要在hrml文件中找出特定的內容,首先需要觀察該內容是什么東西,在什么位置,這樣才能找出來。
假設html的文件名稱是:"1.html"、href屬性全都在a標簽里。
正則版:
#coding:utf-8 import re with open('1.html','r') as f: data = f.read() result = re.findall(r'href="(.*?)"',data) for each in result: print each
Xpath版:
#coding:utf-8 from lxml import etree with open('1.html', 'r') as f: data = f.read() selector = etree.HTML(data) result = selector.xpath('//a/@href') for each in result: print each
1.html 自己隨便找個鏈接 這里的html丟失