Python爬取百度圖片

本文轉載自查看原文 2021-01-11 14:52 1241 python

此文轉載自：https://blog.csdn.net/qq_52907353/article/details/112391518#commentBox

今天要寫的是爬取百度圖片

一、分析過程

1.首先，打開百度，然后打開我們的抓包工具然后搜索一個內容，點擊圖片

2.之前用鼠標滾輪往下滑的過程中，發現圖片是動態加載出來的，也就說明這是一個ajax請求。
有了這些思路，打開我們的抓包工具

3.選擇XHR選項

4.然后鼠標滾輪往下拖動，我們會發現一個數據包。

5.復制這個數據包的URL請求

https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8222346496549682679&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E7%BE%8E%E5%A5%B3&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=%E7%BE%8E%E5%A5%B3&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&force=&cg=girl&pn=30&rn=30&gsm=1e&1610176483429=

6.點開這個URL看到其攜帶的參數

然后也復制一下
開始編寫相關代碼

二、編寫代碼

1.首先引入我們所需要的模塊

import requests

2.開始代碼編寫


#進行UA偽裝
header = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url = 'https://image.baidu.com/search/acjson?'
param = {
    'tn': 'resultjson_com',
    'logid': '8846269338939606587',
    'ipn': 'rj',
    'ct': '201326592',
    'is': '',
    'fp': 'result',
    'queryWord': '美女',
    'cl': '2',
    'lm': '-1',
    'ie': 'utf-8',
    'oe': 'utf-8',
    'adpicid': '',
    'st': '-1',
    'z':'' ,
    'ic':'' ,
    'hd': '',
    'latest': '',
    'copyright': '',
    'word': '美女',
    's':'' ,
    'se':'' ,
    'tab': '',
    'width': '',
    'height': '',
    'face': '0',
    'istype': '2',
    'qc': '',
    'nc': '1',
    'fr': '',
    'expermode': '',
    'force': '',
    'cg': 'girl',
    'pn': '1',
    'rn': '30',
    'gsm': '1e',
}
#將編碼形式轉換為utf-8 
page_text = requests.get(url=url,headers=header,params=param)
page_text.encoding = 'utf-8'
page_text = page_text.text
print(page_text)

到了這一步，我們先訪問一下，看看能不能取得到頁面返回的數據

我們成功取得了返回數據
之后我們返回到網頁中，查看數據包，查看他的返回數據

然后將其放入json在線解析工具中發現了圖片所對應的地址

之后繼續編寫代碼
將返回數據轉換為json格式，而且發現數據全部儲存在一個字典當中，並且圖片的地址也在一個字典當中
然后將鏈接地址取出

page_text = page_text.json()
#先取出所有鏈接所在的字典，並將其存儲在一個列表當中
info_list = page_text['data']
#由於利用此方式取出的字典最后一個為空，所以刪除列表中最后一個元素
del info_list[-1]
#定義一個存儲圖片地址的列表
img_path_list = []
for info in info_list:
    img_path_list.append(info['thumbURL'])
#再將所有的圖片地址取出，進行下載
#n將作為圖片的名字
n = 0
for img_path in img_path_list:
    img_data = requests.get(url=img_path,headers=header).content
    img_path = './' + str(n) + '.jpg'
    with open(img_path,'wb') as fp:
        fp.write(img_data)
   	n += 1

在完成這些以后，我們還想要實現百度圖片下載多頁，經過分析，我發現在我們提交的參數里，pn代表的是從第幾張圖片開始加載，順着這個思路我們可以給上面的代碼套一個大循環，即第一次下載從第1張開始，下載三十張，第二次從第31張開始下載。
OK！思路已經明確，開始修改上面的代碼

import requests
from lxml import etree
page = input('請輸入要爬取多少頁：')
page = int(page) + 1
header = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
n = 0
pn = 1
#pn是從第幾張圖片獲取 百度圖片下滑時默認一次性顯示30張
for m in range(1,page):
    url = 'https://image.baidu.com/search/acjson?'

    param = {
        'tn': 'resultjson_com',
        'logid': '8846269338939606587',
        'ipn': 'rj',
        'ct': '201326592',
        'is': '',
        'fp': 'result',
        'queryWord': '美女',
        'cl': '2',
        'lm': '-1',
        'ie': 'utf-8',
        'oe': 'utf-8',
        'adpicid': '',
        'st': '-1',
        'z':'' ,
        'ic':'' ,
        'hd': '',
        'latest': '',
        'copyright': '',
        'word': '美女',
        's':'' ,
        'se':'' ,
        'tab': '',
        'width': '',
        'height': '',
        'face': '0',
        'istype': '2',
        'qc': '',
        'nc': '1',
        'fr': '',
        'expermode': '',
        'force': '',
        'cg': 'girl',
        'pn': pn,#從第幾張圖片開始
        'rn': '30',
        'gsm': '1e',
    }
    page_text = requests.get(url=url,headers=header,params=param)
    page_text.encoding = 'utf-8'
    page_text = page_text.json()
    info_list = page_text['data']
    del info_list[-1]
    img_path_list = []
    for i in info_list:
        img_path_list.append(i['thumbURL'])
    
    for img_path in img_path_list:
        img_data = requests.get(url=img_path,headers=header).content
        img_path = './' + str(n) + '.jpg'
        with open(img_path,'wb') as fp:
            fp.write(img_data)
        n = n + 1
        
    pn += 29

如果感覺我寫的還可以就請點個贊把，如果有錯誤希望指出，我會積極改正！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 爬取百度圖片【Python】爬取百度圖片 python爬蟲之爬取動態加載的圖片_百度 Python簡易爬蟲爬取百度貼吧圖片百度圖片爬蟲-python版-如何爬取百度圖片? python爬蟲之爬取百度圖片 python爬取百度搜索圖片 python爬取百度圖片——翻頁式網站爬取【Python網絡爬蟲四】通過關鍵字爬取多張百度圖片的圖片爬取百度貼吧圖片（表情包）