2021年python爬虫笔试题


1.python多线程jion()和setDaemon()?
2.写一个装饰器实例,并写出其实现原理(闭包),给出代码。
3.TCP和UDP的区别,三次握手四次挥手的过程。
4.使用python语言做网络爬虫时,在解析模块遇到的网页呈现方式及相关的解决方法涉及到的相关技术模块?以及在在下载模块用到的相关技术模块?
5.针对需要登录的网站,如何解决需要加密的参数?
6.scrapy如何去重,根据数据量从小到大的去重方式?
7.说说你对验证码的了解情况和解决思路?
8.请列举常见的防爬策略和相应的反爬策略?
9.pandas和numpy的区别?
10.scrapy框架的运行机制。
11.简单描述下平常怎么抓包的,有没有遇到抓不到包的情况,ssl单向认证/双向认证了解吗?(抓包)
12.部分app后端服务器,会检测app设备的uuid,并对设备进行风控,怎么绕开此类风控?
13.遇到过哪些JS混淆,怎么解决?(JS逆向)
14.怎么突破前端验证码,比如字符/极验验证码:(风控)
15.职业生涯中,遇到过哪些后端风控场景和风控逻辑,是如何解决的?(风控)
16. 描述下app逆向的常规流程,如何逆向将前端签名/加密逻辑放在native层(so文件)的APP?(APP逆向)
17.使用过哪些自动化测试工具,对群控爬虫方案有了解吗,相比网页/接口爬虫有什么优势和不足?(群控)
18.使用过的爬虫框架或者模块有哪些?优缺点?
19.需要登陆的网页,如何解决同时限制ip、cookie、session?
20.编写过哪些爬虫中间件?
21.动态加载又对及时性要求很高怎么处理?
22.你对selenium和phantomJS的了解?
23.你是怎么监控爬虫状态的?怎么设置爬取的深度?
24.常见的反爬措施及其解决方法?
25.进程、线程、协程?


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM