通過一些爬蟲腳本爬取圖站圖片,但是發現有些圖片是沒法打開的,可能返回404的code碼
所以設計一個腳本,對所有的圖片地址進行檢查,返回200的保存到另外一個文本內,然后再去下載
腳本邏輯很簡單,直接貼代碼,從‘’待檢查地址.txt‘中循環取地址,requests請求地址,’返回碼等於200,循環取出的地址寫到“生成地址.txt”中,
import os import requests soure = open('待檢查地址.txt', 'r') value = soure.readlines() soure.close() def stepb(value): for url in value: url=url[:-1]#去掉換行符,然后url后面會帶個空格,訪問不了鏈接 r=requests.get(url=url) code = r.status_code if str(code) == '200': print(url+"可正常打開") with open('生成地址.txt', 'a') as w: w.write(url+'\n') w.close() print("檢查完成") stepb(value)
下圖1522是本次案例的腳本