python爬取百度搜索圖片

本文轉載自查看原文 2017-07-23 09:27 2006 python

在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片

廢話不說，先上代碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2017/7/22 10:44
# @Author  : wqj
# @Contact : wqjhky@gmail.com
# @Site    : 
# @File    : test.py
# @Software: PyCharm Community Edition
import requests
import re
import os

url = r'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=000000'
dirpath = r'D:\img'

html = requests.get(url).text
urls = re.findall(r'"objURL":"(.*?)"', html)

if not os.path.isdir(dirpath):
    os.mkdir(dirpath)

index = 1
for url in urls:
    print("Downloading:", url)
    
try:
        res = requests.get(url)
        if str(res.status_code)[0] == "4":
            print("未下載成功：", url)
            continue
    except Exception as e:
        print("未下載成功：", url)

filename = os.path.join(dirpath, str(index) + ".jpg") with open(filename, 'wb') as f: f.write(res.content) index += 1print("下載結束，一共 %s 張圖片" % index)

　　在爬取得過程中，最先遇到的問題是打開百度圖片界面，查看源碼，並不能看到img下的src標簽，后通過在知乎上查看文章得知百度將圖片放在了acjson下，通過XHR來查看

進入之后發現其中有較多圖片地址，經過驗證后發現objURL才是我們需要的標簽

這樣我們就可以利用python中的requests庫來對頁面進行解析匹配

其中

try:
        res = requests.get(url)
        if str(res.status_code)[0] == "4":
            print("未下載成功：", url)
            continue
    except Exception as e:
        print("未下載成功：", url)

需要我們來判斷狀態碼是否正常，如異常需要捕捉。

基本上這個python程序就算結束了。

不足的地方有很多，譬如只可以抓取首頁的30張圖片

這是相鄰的兩個請求，每相鄰像個請求之間有30張圖片，經過分析我們可以看出來其中只有兩個參數發生變化，一個是pn，另一個是

gsm。pn是以30遞增的規律，而gsm則無法判斷。（剛入python的坑）

所以無法連續抓取。。。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬取百度谷歌搜索結果 python爬蟲之爬取百度圖片 Python實現百度搜索並保存到本地示例，Python實現百度搜索 python爬取百度圖片——翻頁式網站爬取百度搜索結果HTML分析 Alfred添加百度搜索自己常用百度搜索指令采集百度搜索的方法百度搜索屏蔽csdn 百度搜索高級技巧