python爬取百度圖片——翻頁式網站爬取

本文轉載自查看原文 2019-03-19 22:16 2117

小編大約於這個月月初寫的這一份代碼，但很不幸，大概20號，再次找百度圖片翻頁流的時候，發現是瀑布流且回不去了，還好代碼里面留了翻頁流的網址

所以，現在來分享給大家。

語言：python3.6

庫：requests， re， urllib

除了requests需要pip install之外，其他兩個是python自帶的模塊，直接調用即可。

代碼中的原網址：https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=小姐姐&pn=0

直接復制網址可以瀏覽百度圖片翻頁流的小姐姐的照片的第一頁。好了，代碼在下面，詳情請見注釋。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
# Author:water_chen


import requests
import re
from urllib import request

def get_picture_list(keyword,biggest_pages):
    all_picture_list = []
    for page in range(biggest_pages):
　　　　 # 每一頁20張圖片， 所以翻頁的是0 20 40 80 這樣變化的
        page = page * 20
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={}&pn={}'.format(keyword, page)
　　　　 # 
        html = requests.get(url).content.decode('utf-8')

        picture_list = re.findall('{"thumbURL":"(.*?)",', html)# 用正則匹配，獲得圖片的url

        all_picture_list.extend(picture_list)

　　all_picture_list = set(all_picture_list)# 因為第二頁也有后面兩頁的圖片，所以要去重
　　download_picture(all_picture_list)

# 下載圖片 def download_picture(all_picture_list): for i, pic_url in enumerate(all_picture_list): print(i)
　　　　　# 在代碼的路徑下，新建一個picture，圖片會由urlretrieve函數保存到本地 string = 'picture/{}.jpg'.format(str(i + 1)) request.urlretrieve(pic_url, string) # 開始函數 def start():
　　 # 你想搜索的關鍵詞 keyword = '小姐姐'
　　 # 你想搜索的頁數 biggest_pages = 10 get_picture_list(keyword, biggest_pages) if __name__ == '__main__': start()

大家趕快保存這個翻頁流的網址，現在的百度圖片是瀑布流，如果要爬，就需要selenium對網頁進行滾動，比較麻煩，這個代碼能夠比較容易的獲取。

如果有用，請大家點個贊，謝謝。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲之爬取百度圖片 python爬取百度搜索圖片 Python3 根據關鍵字爬取百度圖片 python爬取百度谷歌搜索結果 python 爬取百度雲資源 Python 爬蟲實例（14）爬取百度音樂【python爬蟲】之爬取百度首頁百度地圖爬取數據爬取百度熱搜爬取百度熱榜