正則表達式—從HTML里提取內容


tags: #正則表達式 #HTML提取

記錄收集我測試過的正則表達式,以便備查備用

  • 匹配任意字符不能跨行:.*

  • 匹配任意字符包括換行符等:[\s\S]*

  • 捕獲某前綴與某后綴之間的任意字符:(.*?)
    使用情況舉例,捕獲下面HTML中的文字“不遲any
    HTML:<a href='http://www.cnblogs.com/buchiany/'>不遲any</a>
    匹配的正則表達式:<a.*?>(.*?)<\/a>
    成功測試適用於:Python 3.x

  • 匹配任意空白(包含空格、\f換頁符、\n換行符、\r回車符、\t制表符、\v垂直制表符):[\s]*
    使用情況舉例,匹配下面HTML內容里第一行<tr>和第三行<th>,之間跨越了空白

HTML:

要匹配的內容第一部分<tr> 

   <th>要匹配的內容第二部分

匹配的正則表達式:<tr>[\s]*<th>
成功測試適用於:Python 3.x


相關:

強烈推薦正則表達式在線測試工具:regex101

[正文結束]


[參考]

  1. https://regex101.com/
  2. http://www.jb51.net/article/28997.htm
  3. http://www.oschina.net/question/12_9507

[更新記錄]
2016-12-19, 初建筆記。添加了2條


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM