scrapy的Xpath表達式總結


我們在使用scrapy的時候,常常會用到xpath表達式,用過xpath你會覺得,哇,比正則簡單呀!確實,xpath簡單明了,但是並不代表xpath在scrapy里面會替代掉正則哦!

1.什么是xpath

   Xpath是一門在XML文檔中查找信息的語言,可以對XML文檔中的元素和屬性使用路徑表達式進行導航,Xpath包含一個標准函數庫。

 

2.xpath常用標簽

  / ------提取某個標簽下的所有內容
  text() ------- 提取標簽所包含的文本內容
  @ ---------- 提取標簽屬性的信息
  // ---------- 尋找所有的標簽
  [@屬性=值] ------ 定位標簽
 
3.使用舉例
  /html -----代表提取html標簽內的所有內容
  /html/head/title -----代表提取title下面的所有信息
  //li ------ 代表提取所有的li標簽
  //li[@class='hidden-xs'] -------- 直接定位到滿足條件的標簽
  //li[@class='hidden-xs']/a/@heef ---------- 提取到class = hidden-cs的li標簽下面的a標簽的href的值
 
4.scrapy中使用xpath
  下面為大家提供一個參考方法(scrapy下寫的一個爬蟲方法),是用來爬取html頁面的title標簽內容和class=‘note’的div標簽下的內容
def next(self,response):
title = response.xpath("/html/head/title/text()").extract()
note = response.xpath("//div[@class = 'note']/text()").extract()
print(title)
print(note)
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM