python3 利用正则获取网页中的想保存下来的内容


需要获取某个网页中表格部分中某个产品的成份

分析在html中成份的元素代码

<a href="/composition/4c3060178d1184935a48c4e51be4f63f.html"></a>

用正则匹配,由于 4c3060178d1184935a48c4e51be4f63f是 变动的,也需要分组下,成分也是要分组的,因此正则的写法是:

r'<td class="td1">(.*?)">(.*?)</a></td>'

匹配用findall来找所有的,由于有2个分组,想要的成分保存在元组的index是1 所有代码中 item[1],就是要保存的内容

import  requests
import re

url='https://www.bevol.cn/product/68a3432166d24e22504d0b2b5262ea00.html'
response = requests.get(url)
html=str(response.content,'utf-8')

compile = re.compile(r'<td class="td1">(.*?)">(.*?)</a></td>', re.I) # 不区分大小写

all = compile.findall(html)
for item in all:
    print(item[1])

 

执行打印结果:

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM