requests-html的基本使用


import requests_html
from requests_html import HTMLSession

# 獲取請求對象
session = HTMLSession()

#發送get請求
sina = session.get('https://news.sina.com.cn/')

# 獲取響應文本信息
print(sina.text)

# 獲取鏈接(links與abolute_links)

# 得到所有的鏈接,返回的是一個set集合
print(sina.html.links)

# 若獲取的鏈接中有相對路徑,我們還可以通過absolute_links獲取所有絕對鏈接
print(sina.html.absolute_links)

# request-html支持CSS選擇器和XPATH兩種語法來選取HTML元素。首先先來看看CSS選擇器語法,它需要使用HTML的 find 函數來查找元素。
'''
  CSS選擇器 and XPATH
      1.通過css選擇器選取一個Element對象
      2.獲取一個Element對象內的文本內容
      3.獲取一個Element對象的所有attributes
      4.渲染出一個Element對象的HTML內容
      5.獲取Element對象內的特定子Element對象,返回列表
      6.在獲取的頁面中通過search查找文本
      7.支持XPath
      8.獲取到只包含某些文本的Element對象
'''
#  獲取id為content-left的div標簽,並且返回一個對象
content = sina.html.find('div#content-left', first=True)

# 獲取Element對象內的指定的所有子Element對象,返回列表
a_s = content.find('a')
print(a_s)

#  獲取content內所有文本
print(content.text)

#  獲取content內所有屬性
print(content.attrs)

#獲取單個屬性
href = content.attrs['href']


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM