python3 利用正则获取网页中的想保存下来的内容

本文转载自查看原文 2018-11-02 17:15 724 python

需要获取某个网页中表格部分中某个产品的成份

分析在html中成份的元素代码

<a href="/composition/4c3060178d1184935a48c4e51be4f63f.html">水</a>

用正则匹配，由于 4c3060178d1184935a48c4e51be4f63f是变动的，也需要分组下，成分也是要分组的，因此正则的写法是：

r'<td class="td1">(.*?)">(.*?)</a></td>'

匹配用findall来找所有的，由于有2个分组，想要的成分保存在元组的index是1 所有代码中 item[1],就是要保存的内容

import  requests
import re

url='https://www.bevol.cn/product/68a3432166d24e22504d0b2b5262ea00.html'
response = requests.get(url)
html=str(response.content,'utf-8')

compile = re.compile(r'<td class="td1">(.*?)">(.*?)</a></td>', re.I) # 不区分大小写

all = compile.findall(html)
for item in all:
    print(item[1])

执行打印结果：

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 怎样把一个网页上所有的图片都保存下来？在view source页面保存下来的网页源码和保存网页得到的源码不同 python3获取一个网页特定内容用正则获取网页中的标签内容一键下载网页所有图片，把美丽存下来微信视频号里的视频如何保存下来呢？ python3 用requests 保存网页以及BeautifulSoup保存图片，并且在本地可以正常显示文章的内容和图片【python】获取网页中中文内容并分词 python3 获取html内容中的a链接与内容 python3 保存一个网页为html文件