css
不包含那個類
response.css(".list-left dd:not(.page)")
獲取屬性和文本
img.css("a::text").extract_first()
img.css("a::attr(href)").extract_first()
獲取類page-en倒數第二個節點
response.css(".page-en:nth-last-child(2)::attr(href)").extract_first()
xpath
獲取<li>標簽下hre 為 link1.html 的 <a> 標簽
result = html.xpath('//li/a[@href="link1.html"]')
獲取最后一個 <li> 的 <a> 的 href
result = html.xpath('//li[last()]/a/@href')
獲取倒數第二個元素的內容
result = html.xpath('//li[last()-1]/a')
獲取<li> 標簽下的所有 <span> 標簽
#result = html.xpath('//li/span')
#注意這么寫是不對的:
#因為 / 是用來獲取子元素的,而 <span> 並不是 <li> 的子元素,所以,要用雙斜杠
result = html.xpath('//li//span')