Python爬蟲使用MD5加密的坑


由於公司的業務需要,需要爬取很多的國外網站圖片,然后兄弟我一路正則殺過去,總共匹配到658張鏈接,心里美滋滋開始寫下載的代碼。然后就有了這次坑的記錄。
首先這是我查到的鏈接數量

gai

然后爬蟲跑完后,美滋滋准備去看圖片的時候,發現了

gai

然后兄弟瞬間傻眼,卧槽?難道有反扒?繼續測試,加了狀態看看

gai

兄弟開了100進程,瞬間跑完

gai

一看控制台,全程沒有輸出那個else里的打印信息,去了眼爬的數量

gai

怎么特么還是這么多?我的圖呢,被狗吃了?然后進行了持續8小時的曠日的持久BUG之旅,前前后后各種信息都嘗試了,還是沒找出來,就在我特么快絕望的時候,突然想起一種情況
會不會是MD5的加密,導致前后兩張圖片的命名一樣,雖然它們的請求鏈接不一樣,但是沒准加密后命名一樣呢?如果一樣,就會在保存的時候替換掉已經下載好的一樣命名的圖片。這樣就會導致圖片大量減少。
然后改代碼

gai

趕緊去看了一眼項目文件

gai

心里一萬個曹尼瑪奔騰而過,這個坑死人的MD5,還是老老實實改成時間戳把。

全文到此結束。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM