正则表达式—从HTML里提取内容

本文转载自查看原文 2017-02-08 17:18 2313 正则表达式/ HTML提取

tags: #正则表达式 #HTML提取

记录收集我测试过的正则表达式，以便备查备用

匹配任意字符不能跨行：.*
匹配任意字符包括换行符等：[\s\S]*
捕获某前缀与某后缀之间的任意字符：(.*?)
使用情况举例，捕获下面HTML中的文字“不迟any”
HTML：<a href='http://www.cnblogs.com/buchiany/'>不迟any</a>
匹配的正则表达式：<a.*?>(.*?)<\/a>
成功测试适用于：Python 3.x
匹配任意空白（包含空格、\f换页符、\n换行符、\r回车符、\t制表符、\v垂直制表符）：[\s]*
使用情况举例，匹配下面HTML内容里第一行<tr>和第三行<th>，之间跨越了空白

HTML：

要匹配的内容第一部分<tr> 

   <th>要匹配的内容第二部分

匹配的正则表达式：<tr>[\s]*<th>
成功测试适用于：Python 3.x

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 jmeter正则表达式提取器里正则表达式语法简介（一）利用正则表达式提取括号内内容利用正则表达式提取（）内内容正则表达式之提取括号内内容正则表达式 -- 提取并替换 ${} 之间的内容 js 正则表达式提取内容 python 正则表达式提取返回内容正则表达式，提取html标签的属性值正则表达式获取TABLE里的内容 java 正则表达式提取html纯文本