tags: #正則表達式 #HTML提取
記錄收集我測試過的正則表達式,以便備查備用
-
匹配任意字符不能跨行:
.*
-
匹配任意字符包括換行符等:
[\s\S]*
-
捕獲某前綴與某后綴之間的任意字符:
(.*?)
使用情況舉例,捕獲下面HTML中的文字“不遲any”
HTML:<a href='http://www.cnblogs.com/buchiany/'>不遲any</a>
匹配的正則表達式:<a.*?>(.*?)<\/a>
成功測試適用於:Python 3.x -
匹配任意空白(包含空格、\f換頁符、\n換行符、\r回車符、\t制表符、\v垂直制表符):
[\s]*
使用情況舉例,匹配下面HTML內容里第一行<tr>
和第三行<th>
,之間跨越了空白
HTML:
要匹配的內容第一部分<tr>
<th>要匹配的內容第二部分
匹配的正則表達式:<tr>[\s]*<th>
成功測試適用於:Python 3.x
相關:
強烈推薦正則表達式在線測試工具:regex101
[正文結束]
[參考]
[更新記錄]
2016-12-19, 初建筆記。添加了2條