selenium3 + python - page_source頁面源碼

本文轉載自查看原文 2019-06-07 22:07 852 selenium/ Selenium

前言：

有時候通過元素的屬性的查找頁面上的某個元素，可能不太好找，這時候可以從源碼中爬出想要的信息。selenium的page_source方法可以獲取到頁面源碼。

本次以博客園為例，先爬取頁面源碼，通過re正則表達式爬取出url，再進行篩選出http 協議的 url -- 用if做判斷。

源碼整理如下

from selenium import webdriver
import re

driver = webdriver.Chrome()
driver.get("https://www.cnblogs.com/Teachertao/")
page = driver.page_source
# print(page)

# "非貪婪匹配,re.S('.'匹配字符,包括換行符)"
url_list = re.findall('href=\"(.*?)\"', page)
#url_list = re.findall('href=\"(.*?)\"', page,re.S)
url_all = []
for url in url_list:
    if "http" in url:
        print(url)
        url_all.append(url)
#打印出頁面url
print(url_all)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Selenium2+python自動化37-爬頁面源碼（page_source）利用page_source抓取網頁中的URL，進行鏈接測試 selenium3 + python - table定位 selenium3 + python - select定位 selenium3 + python - css定位 Page Object poium測試庫（蟲師《selenium3自動化測試實戰--基於Python語言筆記41》） python3使用selenium3的坑 selenium3 + python3 - alert定位 Page Object 1 百度搜索實例（蟲師《selenium3自動化測試實戰--基於Python語言筆記40》） Selenium3筆記-WebDriver源碼初探