不同於我們普通爬蟲獲取xpath,scrapy獲得xpath對象獲取他的值語法
一.xpath對象獲取值
xpath對象..extract()
二.Scrapy框架獨有的xpath取值方式
- 利用href配合正則表達式定位
response.xpath('//a[re:test(@href,"^\/index\.php\?m=News&a=details&id=1&NewsId=\d{1,4}")]')
- 利用text結合正則表達式定位
a=response.xpath('//a[re:test(text(),"\w{4}")]')
- xpath還有對於html元素操作的兩個實用的函數(可以用正則表達式代替)——starts-with和contains;
a=response.xpath('//a[starts-with(@title,"注冊時間")]') #以什么開頭
a=response.xpath('//a[contains(text(),"聞")]') #包含