正則表達式—從HTML里提取內容

本文轉載自查看原文 2017-02-08 17:18 2313 正則表達式/ HTML提取

tags: #正則表達式 #HTML提取

記錄收集我測試過的正則表達式，以便備查備用

匹配任意字符不能跨行：.*
匹配任意字符包括換行符等：[\s\S]*
捕獲某前綴與某后綴之間的任意字符：(.*?)
使用情況舉例，捕獲下面HTML中的文字“不遲any”
HTML：<a href='http://www.cnblogs.com/buchiany/'>不遲any</a>
匹配的正則表達式：<a.*?>(.*?)<\/a>
成功測試適用於：Python 3.x
匹配任意空白（包含空格、\f換頁符、\n換行符、\r回車符、\t制表符、\v垂直制表符）：[\s]*
使用情況舉例，匹配下面HTML內容里第一行<tr>和第三行<th>，之間跨越了空白

HTML：

要匹配的內容第一部分<tr> 

   <th>要匹配的內容第二部分

匹配的正則表達式：<tr>[\s]*<th>
成功測試適用於：Python 3.x

相關：

強烈推薦正則表達式在線測試工具：regex101

[正文結束]

[參考]

[更新記錄]
2016-12-19, 初建筆記。添加了2條

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正則表達式 -- 提取並替換 ${} 之間的內容 java 正則表達式提取html純文本使用正則表達式匹配 HTML 標簽內的內容正則表達式——數據提取正則表達式——html Jmeter 正則表達式提取Response Headers，Response Body里的值 python利用正則表達式提取文本中特定內容 PHP正則表達式提取html超鏈接中的href地址 C#正則表達式提取HTML中IMG標簽的URL地址 . 在Python中使用正則表達式去掉字符串里的html標簽