- 有时候我们会遇到这样一个问题,就是明明xpath解析式是对的,但是却一直返回空列表的情况,这个时候我们就需要注意我们爬取的网页是哪种渲染方式,如果是服务器渲染那么通过xpath我们就可以轻松得到想要的内容,但如果是客户端渲染那么我们将得不到想要的数据,两者的区别在于前者在网页源代码中有相应内容,而后者的网页源代码中没有相应内容。
-
- 例如我们查看淘宝的网页源代码,源代码中并不包含页面相应内容,这时就不能简单通过copy相应的xpath路径提取内容。
-
- 又如牛客网的网页源代码,在网页源代码中可以找到页面上的内容,这时可以利用网页抓包工具(笔记本fn+f12)copy相应的xpath提取
- 后来发现这样的网站属于动态加载的网页,第一次请求到的只是一个网页HTML框架,数据还没请求到,所以需要用selenium进行抓取,selenium的介绍在后面的博客也有介绍,欢迎大家一起交流学习!