由於公司的業務需要,需要爬取很多的國外網站圖片,然后兄弟我一路正則殺過去,總共匹配到658張鏈接,心里美滋滋開始寫下載的代碼。然后就有了這次坑的記錄。
首先這是我查到的鏈接數量
然后爬蟲跑完后,美滋滋准備去看圖片的時候,發現了
然后兄弟瞬間傻眼,卧槽?難道有反扒?繼續測試,加了狀態看看
兄弟開了100進程,瞬間跑完
一看控制台,全程沒有輸出那個else里的打印信息,去了眼爬的數量
怎么特么還是這么多?我的圖呢,被狗吃了?然后進行了持續8小時的曠日的持久BUG之旅,前前后后各種信息都嘗試了,還是沒找出來,就在我特么快絕望的時候,突然想起一種情況
會不會是MD5的加密,導致前后兩張圖片的命名一樣,雖然它們的請求鏈接不一樣,但是沒准加密后命名一樣呢?如果一樣,就會在保存的時候替換掉已經下載好的一樣命名的圖片。這樣就會導致圖片大量減少。
然后改代碼
趕緊去看了一眼項目文件
心里一萬個曹尼瑪奔騰而過,這個坑死人的MD5,還是老老實實改成時間戳把。
全文到此結束。