xpath获取下一页,兄弟节点的妙用


第一页的情况:

 

第四页的情况 :

 

 

文章的链接:  http://tech.huanqiu.com/science/2018-02/11605853_4.html

 

    从上面我们可以看到,如果仅仅用xpath获取下一页的链接 例如:  //div[@id="pages"]/a[@class="a1"][text()="下一页"]/@href     

就会在第四页的时候重复获取相同的链接,我们通过观察可以发现一些规律:

所在的页码是在与链接a标签同级的span标签里面,这个时候我们可以采用兄弟结点,来解决这个问题,

//div[@id="pages"]/span/following-sibling::a[text()!="下一页"]/@href

 

说明:

1  获取到span标签的下一个兄弟结点a标签  (following-sibling::a)

2  寻找它的text内容不为"下一页"  ([text()!="下一页"])

3  再取这个a标签的href属性  (@href)

 

这样在第四页的时候获取到的链接为Null , 就不会重复获取下一页的链接了

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM