python爬蟲實戰——5分鍾做個圖片自動下載器

本文轉載自查看原文 2017-06-13 23:15 1940 Python

python爬蟲實戰——圖片自動下載器

制作爬蟲的基本步驟

順便通過這個小例子，可以掌握一些有關制作爬蟲的基本的步驟。

一般來說，制作一個爬蟲需要分以下幾個步驟：

分析需求（對，需求分析非常重要，不要告訴我你老師沒教你）
分析網頁源代碼，配合F12（沒有F12那么亂的網頁源代碼，你想看死我？）
編寫正則表達式或者XPath表達式（就是前面說的那個神器）
正式編寫python爬蟲代碼

效果

運行：

恩，讓我輸入關鍵詞，讓我想想，輸入什么好呢？好像有點暴露愛好了。

回車

好像開始下載了！好贊！，我看看下載的圖片，哇瞬間我感覺我又補充了好多表情包....

好了，差不多就是這么個東西。

需求分析

"我想要圖片，我又不想上網搜“
"最好還能自動下載"
……

這就是需求，好了，我們開始分析需求，至少要實現兩個功能，一是搜索圖片，二是自動下載。

首先，搜索圖片，最容易想到的就是爬百度圖片的結果，好，那我們就上百度圖片看看

基本就是這樣，還挺漂亮的。

我們試着搜一個東西，我打一個暴字，出來一系列搜索結果，這說明什么....

隨便找一個回車

好了，我們已經看到了很多圖片了，如果我們能把這里面的圖片都爬下來就好了。我們看見網址里有關鍵詞信息

我們試着在網址直接換下關鍵詞，跳轉了有沒有！

這樣，可以通過這個網址查找特定的關鍵詞的圖片，所以理論上，我們可以不用打開網頁就能搜索特定的圖片了。下個問題就是如何實現自動下載，其實利用之前的知識，我們知道可以用request，獲取圖片的網址，然后把它爬下來，保存成.jpg就行了。

所以這個項目就應該可以完成了。

分析網頁

好了，我們開始做下一步，分析網頁源代碼。這里我先切換回傳統頁面，為什么這樣做，因為目前百度圖片采用的是瀑布流模式，動態加載圖片，處理起來很麻煩，傳統的翻頁界面就好很多了。

這里還一個技巧，就是：能爬手機版就不要爬電腦版，因為手機版的代碼很清晰，很容易獲取需要的內容。

好了，切換回傳統版本了，還是有頁碼的看的舒服。

我們點擊右鍵，查看源代碼

這都是什么鬼，怎么可能看清！！

這個時候，就要用F12了，開發者工具！我們回到上一頁面，按F12，出來下面這個工具欄，我們需要用的就是左上角那個東西，一個是鼠標跟隨，一個是切換手機版本，都對我們很有用。我們這里用第一個

然后選擇你想看源代碼的地方，就可以發現，下面的代碼區自動定位到了這個位置，是不是很NB!

我們復制這個地址

然后到剛才的亂七八糟的源代碼里搜索一下，發現它的位置了！（小樣！我還找不到你！)但是這里我們又疑惑了，這個圖片怎么有這么多地址，到底用哪個呢？我們可以看到有thumbURL，middleURL，hoverURL，objURL

通過分析可以知道，前面兩個是縮小的版本，hover是鼠標移動過后顯示的版本，objURL應該是我們需要的，不信可以打開這幾個網址看看，發現obj那個最大最清晰。

好了，找到了圖片位置，我們就開始分析它的代碼。我看看是不是所有的objURL全是圖片

貌似都是以.jpg格式結尾的，那應該跑不了了，我們可以看到搜索出61條，說明應該有61個圖片

編寫正則表達式

通過前面的學習，寫出如下的一條正則表達式不難把？

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

編寫爬蟲代碼

好了，正式開始編寫爬蟲代碼了。這里我們就用了2個包，一個是正則，一個是requests包，之前也介紹過了，沒看的回去看！

#-*- coding:utf-8 -*- import re import requests

然后我們把剛才的網址粘過來，傳入requests，然后把正則表達式寫好

url = 'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1460997499750_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%B0%8F%E9%BB%84%E4%BA%BA' html = requests.get(url).text pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

理論有很多圖片，所以要循環，我們打印出結果來看看，然后用request獲取網址，這里由於有些圖片可能存在網址打不開的情況，加個5秒超時控制。

pic_url = re.findall('"objURL":"(.*?)",',html,re.S) i = 0 for each in pic_url: print each try: pic= requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print '【錯誤】當前圖片無法下載' continue

好了，再就是把網址保存下來，我們在事先在當前目錄建立一個picture目錄，把圖片都放進去，命名的時候，用數字命名把

    string = 'pictures\\'+str(i) + '.jpg' fp = open(string,'wb') fp.write(pic.content) fp.close() i += 1

整個代碼就是這樣：

#-*- coding:utf-8 -*- import re import requests url = 'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1460997499750_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%B0%8F%E9%BB%84%E4%BA%BA' html = requests.get(url).text pic_url = re.findall('"objURL":"(.*?)",',html,re.S) i = 0 for each in pic_url: print each try: pic= requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print '【錯誤】當前圖片無法下載' continue string = 'pictures\\'+str(i) + '.jpg' fp = open(string,'wb') fp.write(pic.content) fp.close() i += 1

我們運行一下，看效果（什么你說這是什么IDE感覺很炫！？趕緊去裝Pycharm，Pycharm的配置和使用看這個文章！）!

好了我們下載了58個圖片，咦剛才不是應該是61個嗎？

我們看，運行中出現了有一些圖片下載不了

我們還看到有圖片沒顯示出來，打開網址看，發現確實沒了。

所以，百度有些圖片它緩存到了自己的機器上，所以你還能看見，但是實際連接已經失效

好了，現在自動下載問題解決了，那根據關鍵詞搜索圖片呢？只要改url就行了，我這里把代碼寫下來了

    word = raw_input("Input key word: ") url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+word+'&ct=201326592&v=flip' result = requests.get(url)

好了，享受你第一個圖片下載爬蟲吧！！當然不只能下載百度的圖片拉，依葫蘆畫瓢，你現在應該做很多事情了，比如爬取頭像，爬淘寶展示圖，或是...美女圖片，捂臉。一切都憑客官你的想象了，當然，作為爬蟲的第一個實例，雖然純用request已經能解決很多問題了，但是效率還是不夠高，如果想要高效爬取大量數據，還是用scrapy吧

這個小工程的代碼都在github上，感興趣的加群下載哦

學習過程中遇到什么問題或者想獲取學習資源的話，歡迎加入學習交流群
626062078，我們一起學Python！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 10分鍾教你Python爬蟲（下）--爬蟲的基本模塊與簡單的實戰 10分鍾教你Python爬蟲（上）-- HTML和爬蟲基礎 30分鍾編寫一個抓取 Unsplash 圖片的 Python爬蟲【python】10分鍾教你用Python做個打飛機小游戲超詳細教程 python scrapy 入門,10分鍾完成一個爬蟲 5分鍾，6行代碼教你寫爬蟲！（python） 5分鍾帶你做個可愛的滑動導航條！教你5分鍾做個手機APP[視頻] 【python】10分鍾教你用python下載和拼接微信好友頭像圖片五分鍾學會Python裝飾器，看完面試不再慌