requests-html的基本使用

本文轉載自查看原文 2020-08-13 00:00 1350

import requests_html
from requests_html import HTMLSession

# 獲取請求對象
session = HTMLSession()

#發送get請求
sina = session.get('https://news.sina.com.cn/')

# 獲取響應文本信息
print(sina.text)

# 獲取鏈接（links與abolute_links）

# 得到所有的鏈接，返回的是一個set集合
print(sina.html.links)

# 若獲取的鏈接中有相對路徑，我們還可以通過absolute_links獲取所有絕對鏈接
print(sina.html.absolute_links)

# request-html支持CSS選擇器和XPATH兩種語法來選取HTML元素。首先先來看看CSS選擇器語法，它需要使用HTML的 find 函數來查找元素。
'''
　　CSS選擇器 and XPATH
    　　1.通過css選擇器選取一個Element對象
    　　2.獲取一個Element對象內的文本內容
    　　3.獲取一個Element對象的所有attributes
   　　 4.渲染出一個Element對象的HTML內容
    　　5.獲取Element對象內的特定子Element對象，返回列表
    　　6.在獲取的頁面中通過search查找文本
   　　 7.支持XPath
   　　 8.獲取到只包含某些文本的Element對象
'''
#  獲取id為content-left的div標簽，並且返回一個對象
content = sina.html.find('div#content-left', first=True)

# 獲取Element對象內的指定的所有子Element對象，返回列表
a_s = content.find('a')
print(a_s)

#  獲取content內所有文本
print(content.text)

#  獲取content內所有屬性
print(content.attrs)

#獲取單個屬性
href = content.attrs['href']

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python requests-HTML使用 requests-html的安裝與使用 Python 爬蟲實戰（二）：使用 requests-html requests-html庫render方法的使用 requests-html庫render的使用 requests-html簡介 requests-html requests-html快速入門 requests-html的js執行功能簡單使用 5.Python使用最新爬蟲工具requests-html