[python爬蟲] 爬取圖片無法打開或已損壞的簡單探討

本文轉載自查看原文 2015-12-18 02:49 14197 【Python爬蟲】

本文主要針對python使用urlretrieve或urlopen下載百度、搜狗、googto（谷歌鏡像）等圖片時，出現"無法打開圖片或已損壞"的問題，作者對它進行簡單的探討。同時，作者將進一步幫你鞏固selenium自動化操作和urllib庫等知識。
感謝朋友"露為霜"的幫助！希望以后能實現強大的圖片爬蟲代碼~

一. 引入Selenium自動爬取百度圖片

下面這部分Selenium代碼的主要功能是：
  1.先自動運行瀏覽器，並訪問百度圖片鏈接：http://image.baidu.com/
  2.通過driver.find_element_by_xpath()函數獲取輸入框的位置；
3.在輸入框中自動輸入搜索關鍵詞"鄧肯"，再輸入回車搜索"鄧肯"相關圖片；
4.再通過find_element_by_xpath()獲取圖片的原圖url，這里僅獲取一張圖片；
  5.調用urllib的urlretrieve()函數下載圖片。
最后整個動態效果如下圖所示，但是圖片卻無法顯示：

代碼如下：

 1 # -*- coding: utf-8 -*-
 2 import urllib
 3 import re
 4 import time
 5 import os
 6 from selenium import webdriver          
 7 from selenium.webdriver.common.keys import Keys 
 8 import selenium.webdriver.support.ui as ui
 9 from selenium.webdriver.common.action_chains import ActionChains         
10 
11 #Open PhantomJS
12 #driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
13 driver = webdriver.Firefox() 
14 wait = ui.WebDriverWait(driver,10)
15 
16 #Search Picture By Baidu
17 url = "http://image.baidu.com/"
18 name = u"鄧肯"
19 driver.get(url)
20 elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
21 elem_inp.send_keys(name)  
22 elem_inp.send_keys(Keys.RETURN)
23 time.sleep(5)
24 
25 #Get the URL of Pictures
26 #elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
27 elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
28 elem_url = elem_pic.get_attribute("src")
29 print elem_url
30 
31 #Download Pictures
32 driver.get(elem_url)
33 urllib.urlretrieve(elem_url,"picture.jpg")
34 print "Download Pictures!!!"

二. 簡單分析原因及知識鞏固

1.urllib.urlretrieve()
通過urlretrieve()函數可設置下載進度發現圖片是一下子就加載的。這里給大家鞏固這個urlretrieve函數的方法和Python時間命名方式，代碼如下：

 1 # -*- coding: utf-8 -*-
 2 import urllib
 3 import time
 4 import os
 5 
 6 #顯示下載進度
 7 def schedule(a,b,c):
 8     #a:已下載的數據塊 b:數據塊的大小 c:遠程文件的大小
 9     per = 100.0 * a * b / c
10     if per > 100 :
11         per = 100
12     print '%.2f%%' % per
13 
14 if __name__ == '__main__':
15     url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
16     #定義文件名 時間命名
17     t = time.localtime(time.time())
18     #反斜杠連接多行
19     filename = str(t.__getattribute__("tm_year")) + "_" + \
20                str(t.__getattribute__("tm_mon")) + "_" + \
21                str(t.__getattribute__("tm_mday"))
22     target = "%s.jpg" % filename
23     print target
24     urllib.urlretrieve(url,target,schedule)
25     print "Download Picture!!!"

發現該圖片的大小僅為168字節，其中輸出結果如下圖，獲取的URL地址如下：
http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg
而換張圖片是能顯示下載進度的，如我的頭像。顯然我想讓程序加個進度就能爬取圖片的想法失敗。頭像地址：http://avatar.csdn.net/F/8/5/1_eastmount.jpg

猜測可能獲取的百度URL不是原圖地址，或者是個服務器設置了相應的攔截或加密。參考"Python爬蟲抓取網頁圖片"，函數相關介紹如下：

>>> help(urllib.urlretrieve)
Help on function urlretrieve in module urllib:
urlretrieve(url, filename=None, reporthook=None, data=None)

參數url：
    指定的下載路徑
參數 finename：
    指定了保存本地路徑（如果參數未指定，urllib會生成一個臨時文件保存數據。）
參數 reporthook：
    是一個回調函數，當連接上服務器、以及相應的數據塊傳輸完畢時會觸發該回調，
    我們可以利用這個回調函數來顯示當前的下載進度。
參數 data：
    指 post 到服務器的數據，該方法返回一個包含兩個元素的(filename, headers)元組，
    filename 表示保存到本地的路徑，header 表示服務器的響應頭。

2.urllib2.urlopen()
換個方法urlopen()實現，同時設置消息頭試試，並輸出信息和圖片大小。

 1 # -*- coding: utf-8 -*-
 2 import os      
 3 import sys    
 4 import urllib
 5 import urllib2
 6 
 7 #設置消息頭
 8 url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
 9 header = {
10     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
11         AppleWebKit/537.36 (KHTML, like Gecko) \
12         Chrome/35.0.1916.114 Safari/537.36',
13     'Cookie': 'AspxAutoDetectCookieSupport=1'
14 }
15 request = urllib2.Request(url, None, header)
16 response = urllib2.urlopen(request)
17 print response.headers['Content-Length']
18 
19 with open("picture.jpg","wb") as f:
20     f.write(response.read())
21 print response.geturl()
22 print response.info()    #返回報文頭信息
23 print urllib2.urlopen(url).read()

返回內容是”HTTPError: HTTP Error 403: Forbidden“，Selenium打開如下：

其中403錯誤介紹如下，服務器拒絕服務：

換成我的博客圖像那張圖是能下載的，同時設置消息頭和代理，推薦一篇文章：
[Python]網絡爬蟲（五）：urllib2的使用細節與抓站技巧

三. 解決方法

主要參考三篇文章和自己的一些想法：
  selenium+python 爬取網絡圖片(2) -- 百度
  Python 3 多線程下載百度圖片搜索結果
  CSDN博客搬家到WordPress - curl設置headers爬取

  第一個方法 F12審查元素和SRC的騙局
這是感謝"露為霜"同學提供的方法，如果你通過瀏覽器點開百度搜索"鄧肯"的第一張圖片，復制網址后，會發現圖片真實的地址為：
  http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
此時你再分析百度搜索頁面，你會發現"F12審查元素和獲取src元素的行為欺騙了你"，正是因為它倆定位到了錯誤的圖片鏈接。而真實的URL是在"ul/li/"中的"data-objurl"屬性中。

代碼如下：

 1 # -*- coding: utf-8 -*-
 2 import urllib
 3 import re
 4 import time
 5 import os
 6 from selenium import webdriver          
 7 from selenium.webdriver.common.keys import Keys
 8 import selenium.webdriver.support.ui as ui        
 9 from selenium.webdriver.common.action_chains import ActionChains
10 
11 #Open PhantomJS
12 #driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
13 driver = webdriver.Firefox() 
14 wait = ui.WebDriverWait(driver,10)
15 
16 #Search Picture By Baidu
17 url = "http://image.baidu.com/"
18 name = u"鄧肯"
19 driver.get(url)
20 elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
21 elem_inp.send_keys(name)  
22 elem_inp.send_keys(Keys.RETURN)
23 time.sleep(5)
24 
25 #Get the URL of Pictures
26 num = 1
27 elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")
28 for elem in elem_pic:
29     elem_url = elem.get_attribute("data-objurl")
30     print elem_url
31     #Download Pictures
32     name = "%03d" % num
33     urllib.urlretrieve(elem_url, str(name) + ".jpg")
34     num = num + 1
35 else:
36     print "Download Pictures!!!"

運行代碼成功爬取了9張圖片，顯然成功了！雖然最后報錯：IOError: [Errno socket error] [Errno 10060] ，只爬取了9張圖片，但是至少可以正確解決了該問題。運行截圖如下所示：

同樣的道理，googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可獲取正確的圖片地址並正確下載。
PS：百度圖片動態加載的功能是非常強大的，當你的鼠標拖動時，它會自動增加新的頁面，在<ul>中包括新的一批<li>張圖片，這也是不同於其它網頁在右下角點擊"1、2、3..."翻頁的，可能也會成為海量圖片爬取的又一難點。

第二個方法 Selenium使用右鍵另存為
還是使用老的鏈接，雖然讀取是無法顯示的，但嘗試通過Selenium的鼠標右鍵另存為功能，看能不能爬取成功。

 1 # -*- coding: utf-8 -*-
 2 import urllib
 3 import re
 4 import time
 5 import os
 6 from selenium import webdriver          
 7 from selenium.webdriver.common.keys import Keys
 8 import selenium.webdriver.support.ui as ui        
 9 from selenium.webdriver.common.action_chains import ActionChains
10 
11 #Open PhantomJS 
12 driver = webdriver.Firefox()
13 wait = ui.WebDriverWait(driver,10)
14 
15 #Search Picture By Baidu
16 url = "http://image.baidu.com/"
17 name = u"鄧肯"
18 driver.get(url)
19 elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")  
20 elem_inp.send_keys(name)  
21 elem_inp.send_keys(Keys.RETURN)
22 time.sleep(5)
23 
24 #Get the URL of Pictures
25 elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")
26 elem_url = elem_pic.get_attribute("src")
27 print elem_url
28 
29 #鼠標移動至圖片上 右鍵保存圖片
30 driver.get(elem_url)
31 print driver.page_source
32 elem = driver.find_element_by_xpath("//img")
33 action = ActionChains(driver).move_to_element(elem)
34 action.context_click(elem) #右鍵  
35 
36 #當右鍵鼠標點擊鍵盤光標向下則移動至右鍵菜單第一個選項
37 action.send_keys(Keys.ARROW_DOWN)
38 action.send_keys('v') #另存為
39 action.perform()
40 print "Download Pictures!!!"

運行效果如下圖所示。雖然它能實現右鍵另存為，但是需要手動點擊保存，其原因是selenium無法操作操作系統級的對話框，又說"set profile"代碼段的設置能解決問題的並不靠譜。通過鈎子Hook函數可以實現，以前做過C#的鈎子自動點擊功能，但是想到下載圖片需要彈出並點擊無數次對話框就很蛋疼，所以該方法並不好！
鈎子函數java版本結合robot可以閱讀下面這篇文章：
selenium webdriver 右鍵另存為下載文件（結合robot and autoIt）

  第三個方法通過Selenium自動點擊百度的下載按鈕
其實現過程就是通過Selenium找到"下載"按鈕，再點擊或獲取鏈接即可。
該方法參考文章：selenium+python 爬取網絡圖片(2) -- 百度
同時，這里需要強調百度動態加載，可以通過Selenium模擬滾動窗口實現，也參考上面文章。其中核心代碼為：
  driver.maximize_window()
  pos += i*500 # 每次下滾500
  js = "document.documentElement.scrollTop=%d" % pos
  driver.execute_script(js)

第四個方法百度圖片解碼下載及線程實現
參考文章：Python 3 多線程下載百度圖片搜索結果

最近看了一些優秀的文章，真心感覺自己縷蟻一般，太過渺小，還有好多知識需要學習啊！加油~而且不知道現在自己做的這些東西是否有用？心理的幾個想法一直還未實現，挺擔心的。還是自己博客描述那句話：
無知的自己 · 樂觀的面對 · 謙遜的學習 · 低調的前行 · 更要會生活
希望文章對你有所幫助，如果有錯誤或不足之處，還請海涵~
  （By:Eastmount 2015-12-07 清晨6點 http://blog.csdn.net/eastmount/）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲（爬取圖片） C#簡單爬蟲爬取圖片並保存本地 python-一個小爬蟲，爬取圖片 python爬蟲: 指定關鍵字爬取圖片 "steam_osx"已損壞，無法打開的解決方案 office 2016文件已損壞，無法打開 python 圖片爬蟲抓取圖片系列二——爬取指定網頁中的圖片精細版【爬蟲】網頁圖片爬蟲工具——從谷歌必應上爬取圖片使用Scrapy爬蟲框架簡單爬取圖片並保存本地(妹子圖） Python爬蟲學習第一天--利用正則表達式爬取圖片