第一頁的情況:

第四頁的情況 :

文章的鏈接: http://tech.huanqiu.com/science/2018-02/11605853_4.html
從上面我們可以看到,如果僅僅用xpath獲取下一頁的鏈接 例如: //div[@id="pages"]/a[@class="a1"][text()="下一頁"]/@href
就會在第四頁的時候重復獲取相同的鏈接,我們通過觀察可以發現一些規律:
所在的頁碼是在與鏈接a標簽同級的span標簽里面,這個時候我們可以采用兄弟結點,來解決這個問題,
//div[@id="pages"]/span/following-sibling::a[text()!="下一頁"]/@href
說明:
1 獲取到span標簽的下一個兄弟結點a標簽 (following-sibling::a)
2 尋找它的text內容不為"下一頁" ([text()!="下一頁"])
3 再取這個a標簽的href屬性 (@href)
這樣在第四頁的時候獲取到的鏈接為Null , 就不會重復獲取下一頁的鏈接了
