import requests
import re
txt='<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的陽光寄給冬日的你</a>'
urla=re.findall('<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>',txt)
for i in urla:
print(i)
urlb=re.findall('<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>',txt)
for i in urlb:
print(i)
結果:
https://www.vgirls.com/13404.html
想把夏日的陽光寄給冬日的你
總結:
1。根據網頁源代碼找到關鍵位置,主要分析相關同一級別的源代碼的共同點
2。找到關鍵如txt的內容,復制下來
3。粘貼到空白處:urla=re.findall(' ',txt)
4.需要選擇出來的部分去掉改成 (.*?);不想選擇但內容又變化的去掉改成 .?*,一定不能加括號
5。所以第一個只提取超級連接的地址;第二個只提取“標簽A中的文字"