「玩轉Python」突破封鎖繼續爬取百萬妹子圖


前言

從零學 Python 案例,自從提交第一個妹子圖版本引來了不少小伙伴的興趣。最近,很多小伙伴發來私信說,妹子圖不能爬了!?

趁着周末試了一把,果然爬不動了,爬下來的都是些 0kb 的假圖片,然后就是一系列的報錯信息,顯然妹子圖圖長已經做了防御措施。

偽裝

無論怎么做防御措施,總不能把正常用戶也給禁了?所以,我們要盡可能的偽裝成正常用戶,我就是來看妹子圖的。

  • 防盜鏈處理
  • 延時處理請求圖片
  • 准備盡量多的請求頭
  • 動態代理IP(花錢,暫且不考慮)

請求頭,越多越好,盡量避免同一個請求頭去處理圖片。

meizi_headers = [
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
    'Opera/9.25 (Windows NT 5.1; U; en)',
    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
    "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
    "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0",
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
]

延時,不要太頻繁的去抓取圖片,如果時間充裕,盡量設置的稍微大一些。

# 單位為秒,1-3 隨機數
time.sleep(random.randint(1, 3))

防盜鏈處理,否則會出現403錯誤。

# 防盜鏈加入Referer
headers = {'User-Agent': random.choice(meizi_headers), 'Referer': url}
img = requests.get(url, headers=headers)

最后一個動態代理IP,如果圖長把你IP封了,那以上操作都是白瞎。如果還想繼續下,只能通過動態代理IP來處理了。

小結

下面是新爬取的妹子圖,僅限18歲以上少年查看,未成年會自行馬賽克處理。

如果您對這篇總結感興趣請 回復

源碼:https://gitee.com/52itstyle/Python/tree/master/Day01


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM