正則表達式查找網頁源代碼提取指定內容

本文轉載自查看原文 2020-01-30 19:56 1282 爬蟲/ python

import requests
import re

txt='<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的陽光寄給冬日的你</a>'
urla=re.findall('<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>',txt)
for i in urla:
print(i)
urlb=re.findall('<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>',txt)
for i in urlb:
print(i)
結果：

https://www.vgirls.com/13404.html
想把夏日的陽光寄給冬日的你

總結：

1。根據網頁源代碼找到關鍵位置，主要分析相關同一級別的源代碼的共同點

2。找到關鍵如txt的內容，復制下來
3。粘貼到空白處：urla=re.findall(' ',txt)
4.需要選擇出來的部分去掉改成 (.*?)；不想選擇但內容又變化的去掉改成 .?*,一定不能加括號

5。所以第一個只提取超級連接的地址；第二個只提取“標簽A中的文字"

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java正則表達式提取指定字符串 C#用正則表達式獲取網頁源代碼標簽的屬性或值數據的查找和提取[1]——正則表達式用python正則表達式提取網頁的url Go語言正則表達式提取網頁文本利用正則表達式提取括號內內容利用正則表達式提取（）內內容正則表達式之提取括號內內容正則表達式 -- 提取並替換 ${} 之間的內容正則表達式—從HTML里提取內容

正則表達式 查找網頁源代碼 提取指定內容

免責聲明！

正則表達式查找網頁源代碼提取指定內容