2021年python爬蟲筆試題


1.python多線程jion()和setDaemon()?
2.寫一個裝飾器實例,並寫出其實現原理(閉包),給出代碼。
3.TCP和UDP的區別,三次握手四次揮手的過程。
4.使用python語言做網絡爬蟲時,在解析模塊遇到的網頁呈現方式及相關的解決方法涉及到的相關技術模塊?以及在在下載模塊用到的相關技術模塊?
5.針對需要登錄的網站,如何解決需要加密的參數?
6.scrapy如何去重,根據數據量從小到大的去重方式?
7.說說你對驗證碼的了解情況和解決思路?
8.請列舉常見的防爬策略和相應的反爬策略?
9.pandas和numpy的區別?
10.scrapy框架的運行機制。
11.簡單描述下平常怎么抓包的,有沒有遇到抓不到包的情況,ssl單向認證/雙向認證了解嗎?(抓包)
12.部分app后端服務器,會檢測app設備的uuid,並對設備進行風控,怎么繞開此類風控?
13.遇到過哪些JS混淆,怎么解決?(JS逆向)
14.怎么突破前端驗證碼,比如字符/極驗驗證碼:(風控)
15.職業生涯中,遇到過哪些后端風控場景和風控邏輯,是如何解決的?(風控)
16. 描述下app逆向的常規流程,如何逆向將前端簽名/加密邏輯放在native層(so文件)的APP?(APP逆向)
17.使用過哪些自動化測試工具,對群控爬蟲方案有了解嗎,相比網頁/接口爬蟲有什么優勢和不足?(群控)
18.使用過的爬蟲框架或者模塊有哪些?優缺點?
19.需要登陸的網頁,如何解決同時限制ip、cookie、session?
20.編寫過哪些爬蟲中間件?
21.動態加載又對及時性要求很高怎么處理?
22.你對selenium和phantomJS的了解?
23.你是怎么監控爬蟲狀態的?怎么設置爬取的深度?
24.常見的反爬措施及其解決方法?
25.進程、線程、協程?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM