写爬虫时如何判断页数


最近打算学点东西。

好像一直都打算学点东西,然后学了之后平时用不到,又全忘了。

做了一大堆笔记,也没看过,大部分都不知道丢到哪去了。

这样的一个状态肯定不行,正赶上最近职业焦虑比较严重,肯定要再学点东西。不管是真的管用还是安慰下自己。所以大佬们不要看我写的东西幼稚,然后喷我。对各位没帮助,绕道即可,先在此谢谢大家。

我是这么考虑的,再学习的话,就先学习平时用得到的,或者比较有意思的东西。

我是个黑盒测试,平时用的到得的东西一般来说还是经验和积累,技术其次。所以打算先搞点有意思的东西,正好有点python基础,感觉爬虫还蛮有意思的,所以优先搞下。

我会在此记录我学习的过程,先从简单的慢慢来,写出一个基础的版本,然后在此版上迭代完善。

随便瞎写一个爬图片的爬虫,不会按照步骤来整理。

写爬虫时,第一步要了解的,是你要访问的URL。而如果是一个分组的图片(几十张上百张),会分成几页,他的url肯定是有一定规律的。

然后,会遇到不知道总页数的情况,导致无法准确判断应该爬取多少个URL。

下面是我记录的几种方法。

1.一般显示页数的页面,会有上一页和下一页。而在第一页的时候,是不会显示‘上一页’的,最后一页不会显示‘下一页’。所以,可以写一个循环,并且直接判断页面是否有‘下一页’按钮,如果没有,跳出循环即可。

2.如果页面较多时,页面上的处理方法一般是只显示固定数量的页面。比如,显示四个到五个页数按钮。这样的话,可以考虑写一个循环,比较当前页最后的页数按钮的数字和上一页的页数按钮的最后一个数字是否相同。如果相同,则可以得知总页数。

3.第三种方法比较蠢,只管做请求,当请求的地址无法访问时,说明后续没有页面需要继续请求了,停止即可。但是以抛出异常的方式做处理不推荐。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM