import requests_html
from requests_html import HTMLSession
# 獲取請求對象
session = HTMLSession()
#發送get請求
sina = session.get('https://news.sina.com.cn/')
# 獲取響應文本信息
print(sina.text)
# 獲取鏈接(links與abolute_links)
# 得到所有的鏈接,返回的是一個set集合
print(sina.html.links)
# 若獲取的鏈接中有相對路徑,我們還可以通過absolute_links獲取所有絕對鏈接
print(sina.html.absolute_links)
# request-html支持CSS選擇器和XPATH兩種語法來選取HTML元素。首先先來看看CSS選擇器語法,它需要使用HTML的 find 函數來查找元素。
'''
CSS選擇器 and XPATH
1.通過css選擇器選取一個Element對象
2.獲取一個Element對象內的文本內容
3.獲取一個Element對象的所有attributes
4.渲染出一個Element對象的HTML內容
5.獲取Element對象內的特定子Element對象,返回列表
6.在獲取的頁面中通過search查找文本
7.支持XPath
8.獲取到只包含某些文本的Element對象
'''
# 獲取id為content-left的div標簽,並且返回一個對象
content = sina.html.find('div#content-left', first=True)
# 獲取Element對象內的指定的所有子Element對象,返回列表
a_s = content.find('a')
print(a_s)
# 獲取content內所有文本
print(content.text)
# 獲取content內所有屬性
print(content.attrs)
#獲取單個屬性
href = content.attrs['href']