xpath排除特定子节点

本文转载自查看原文 2021-10-09 10:01 1379 Scrapy(python)

一直用xpath提取网页数据，有些文章嵌入一些图片 a标签等，一般的通用做法是用【正则】去除，可是也很难满足要求，

尤其是要提取的内容跟图片和a标签在相同的标签里

如上图，都在p标签里，不管是内容还是图片，这时用正则也不是很灵活，现在办法是通过提取到文章主体部分，然后依次遍历每个段落，

            div_list = []
            div = response.xpath(
                '//div[@id="articlebody"]/*[not(name()="style") and not(@class="instrumentName") and not(@id="botlist")]').getall()
            if not div:
                # articleContent
                div = response.xpath(
                    '//div[@class="articleContent"]/*[not(name()="h4") and not(name()="div")]').getall()
            if div and len(div) > 0:
                for dv in div:
                    if "</a>" not in dv or "<img" not in dv:
                        div_list.append(dv)
            div_html = '''<div class="cont-cont">{0} </div>'''.format(
                "".join(div_list))

　这里只提取p标签和h3标签，遍历后如果内容中含有图片和a标签则删除，这样就可以处理排除掉特定子元素

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 xpath的节点选择 Maven打包时排除特定的目录和类使用CSS选择器实现选择指定子节点 rm命令删除文件时排除特定文件正则表达式排除特定字符串获取类的属性并排除特定属性（getType().GetProperties()） vue element-ui tree 根节点固定子节点懒加载首次加载根节点并展开 lxml的使用（节点与xpath爬取数据） Xpath剔除不需要的标签节点 xpath不获取某个节点属性中值，以及获取某个节点属性值