scrapy中的xpath用法和css的用法


css

不包含那個類

response.css(".list-left dd:not(.page)")

獲取屬性和文本

img.css("a::text").extract_first()

img.css("a::attr(href)").extract_first()

獲取類page-en倒數第二個節點

response.css(".page-en:nth-last-child(2)::attr(href)").extract_first()

 xpath

獲取<li>標簽下hre 為 link1.html 的 <a> 標簽

result = html.xpath('//li/a[@href="link1.html"]')

獲取最后一個 <li> 的 <a> 的 href

result = html.xpath('//li[last()]/a/@href')

 獲取倒數第二個元素的內容

result = html.xpath('//li[last()-1]/a')

獲取<li> 標簽下的所有 <span> 標簽

#result = html.xpath('//li/span')
#注意這么寫是不對的:
#因為 / 是用來獲取子元素的,而 <span> 並不是 <li> 的子元素,所以,要用雙斜杠

result = html.xpath('//li//span')

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM