正則表達式 查找網頁源代碼 提取指定內容


import requests
import re

txt='<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的陽光寄給冬日的你</a>'
urla=re.findall('<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>',txt)
for i in urla:
print(i)
urlb=re.findall('<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>',txt)
for i in urlb:
print(i)
結果:

https://www.vgirls.com/13404.html
想把夏日的陽光寄給冬日的你

總結:

1。根據網頁源代碼找到關鍵位置,主要分析相關同一級別的源代碼的共同點

2。找到關鍵如txt的內容,復制下來
3。粘貼到空白處:urla=re.findall('   ',txt)
4.需要選擇出來的部分去掉改成 (.*?);不想選擇但內容又變化的去掉改成  .?*,一定不能加括號

5。所以第一個只提取超級連接的地址;第二個只提取“標簽A中的文字"


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM