# -*- coding: utf-8 -*-
#1.選取節點
#獲取所有的div元素 //div
#/代表獲取根節點的直接子元素
#獲取所有帶有id屬性的div //div[@id]
#2.謂詞(索引從1開始)
#獲取body下面的第一個/最后一個div元素/前兩個 //body/div[1] //body/div[last()] //body/div[position<3]
#獲取具有class='price'屬性的div標簽 //div[@class='price']
#3.通配符
# * |
#4.運算符 and or
import requests
from lxml import etree
url = "http://www.baidu.com"
resp = requests.get(url)
resp.encoding="utf-8"
html = etree.HTML(resp.text)
#獲取所有a標簽的href屬性
linklist = html.xpath("//a/@href")
for item in linklist:
print(item)