python爬取百度圖片——翻頁式網站爬取


小編大約於這個月月初寫的這一份代碼,但很不幸,大概20號,再次找百度圖片翻頁流的時候,發現是瀑布流且回不去了,還好代碼里面留了翻頁流的網址

所以,現在來分享給大家。

語言:python3.6

庫:requests, re, urllib

除了requests需要pip install之外,其他兩個是python自帶的模塊,直接調用即可。

代碼中的原網址:https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=小姐姐&pn=0

直接復制網址可以瀏覽百度圖片翻頁流的小姐姐的照片的第一頁。好了,代碼在下面,詳情請見注釋。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
# Author:water_chen


import requests
import re
from urllib import request

def get_picture_list(keyword,biggest_pages):
    all_picture_list = []
    for page in range(biggest_pages):
     # 每一頁20張圖片, 所以翻頁的是0 20 40 80 這樣變化的 page
= page * 20 url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={}&pn={}'.format(keyword, page)      # html = requests.get(url).content.decode('utf-8') picture_list = re.findall('{"thumbURL":"(.*?)",', html)# 用正則匹配,獲得圖片的url all_picture_list.extend(picture_list)
  all_picture_list = set(all_picture_list)# 因為第二頁也有后面兩頁的圖片,所以要去重
  download_picture(all_picture_list)
# 下載圖片 def download_picture(all_picture_list): for i, pic_url in enumerate(all_picture_list): print(i)
     # 在代碼的路徑下,新建一個picture,圖片會由urlretrieve函數保存到本地 string
= 'picture/{}.jpg'.format(str(i + 1)) request.urlretrieve(pic_url, string) # 開始函數 def start():
   # 你想搜索的關鍵詞 keyword
= '小姐姐'
   # 你想搜索的頁數 biggest_pages = 10 get_picture_list(keyword, biggest_pages) if __name__ == '__main__': start()

大家趕快保存這個翻頁流的網址,現在的百度圖片是瀑布流,如果要爬,就需要selenium對網頁進行滾動,比較麻煩,這個代碼能夠比較容易的獲取。

如果有用,請大家點個贊,謝謝。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM