xpath中使用正则表达式

其实我自己也从来没用到过，在此记录一下，万一以后会用到呢。
比如有个网站正文部分是： //*[@id='postmessage_32199']
另一个同级别页面的正文是： //*[@id='postmessage_32153']
要抓取这种正文其实可以用xpath： //*[starts-with(@id, 'postmessage_')]
或者 //*[contains(@id, 'postmessage_')]
也可以选择在xpath中使用正则表达式：doc.xpath(r'//*[re:match(@id, "postmessage_\d+")]', namespace={"re": "http://exslt.org/regular-expressions"})

xpath中如何看选住原文的内容

选取页面元素el,通过to_string 方法可以拿到页面标签的原文不过是bytes类型，可以用bytes.decoding
result = etree.tostring(el)
print(result.decode('utf-8'))

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 8.正则表达式和XPath xpath里边怎么用正则表达式正则表达式中使用变量 Linux命令中使用正则表达式在python中使用正则表达式(一) 在Sql Server 中使用正则表达式 MySQL中使用正则表达式在 Oracle 中使用正则表达式 python 正则表达式中使用变量在VB6/VBA中使用正则表达式