Python 爬蟲-爬取京東手機頁面的圖片

本文轉載自查看原文 2017-06-13 16:00 1365 Python

具體代碼如下：

__author__ = 'Fred Zhao'

import requests
from bs4 import BeautifulSoup
import os
from urllib.request import urlretrieve

class Picture():

    def __init__(self):
        self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}
        self.base_url = 'https://list.jd.com/list.html?cat=9987,653,655&page='
        self.base_path = os.path.dirname(__file__)

    def makedir(self, name):
        path = os.path.join(self.base_path, name)
        isExist = os.path.exists(path)
        if not isExist:
            os.makedirs(path)
            print("File has been created.")
        else:
            print('OK!The file is existed. You do not need create a new one.')
        os.chdir(path)

    def request(self, url):
        r = requests.get(url, headers=self.headers)
        return r

    def get_img(self, page):
        r = self.request(self.base_url + str(page))
        plist = BeautifulSoup(r.text, 'lxml').find('div', id='plist')
        item = plist.find_all('li', class_='gl-item')
        print(len(item))
        self.makedir('pictures')
        num = 0
        for i in item:
            num += 1
            imglist = i.find('div', class_='p-img')
            print(num)
            img = imglist.find('img')
            print('This is %s picture' %num)
            if img.get('src'):
                url = 'https:' + img.get('src')
                fileName = img.get('src').split('/')[-1]
                urlretrieve(url, filename=fileName)

            elif img.get('data-lazy-img'):
                url = 'https:' + img.get('data-lazy-img')
                fileName = img.get('data-lazy-img').split('/')[-1]
                urlretrieve(url, filename=fileName)



if __name__ == '__main__':
    picture = Picture()
    for i in range(2): #控制爬取的頁數
        picture.get_img(i+1)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 京東某商品頁面的簡單爬取 --Pyhon網絡爬蟲與信息獲取分布式爬蟲系統設計、實現與實戰：爬取京東、蘇寧易購全網手機商品數據+MySQL、HBase存儲使用Selenium爬取京東電商數據(以手機商品為例) python爬取華為商城所有的手機參數爬取淘寶“手機信息” 網絡爬蟲之scrapy爬取某招聘網手機APP發布信息 python爬蟲：爬取京東商品信息 python爬蟲爬取京東商品信息 Python爬蟲——爬取網頁圖片 Python新手爬蟲四：爬取視頻