【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的代碼（附源碼）

本文轉載自查看原文 2021-10-06 14:51 821 Python案例教學

前言

今天我們通過Python爬取小姐姐圖片網站上的美圖，零基礎學會通用爬蟲，當然我們還可以實現多線程爬蟲，加快爬蟲速度

環境介紹

python 3.6
pycharm
requests >>> pip install requests
re
time
concurrent.futures

【付費VIP完整版】只要看了就能學會的教程，80集Python基礎入門視頻教學

爬蟲最基本思路

爬取單個相冊內容:

找到目標 https://https://www.kanxiaojiejie.com/img/6509
發送請求 (人為操作: 訪問網站)
獲取數據 (HTML代碼就是服務器返回的數據)
數據提取 (篩選里面的內容)
HTML網頁代碼
保存數據 (把圖片下載下來)

目標網站

簡單的通用爬蟲代碼

import requests
import parsel
import re
import os

page_html = requests.get('https://www.kanxiaojiejie.com/page/1').text
pages = parsel.Selector(page_html).css('.last::attr(href)').get().split('/')[-1]
for page in range(1, int(pages) + 1):
    print(f'==================正在爬取第{page}頁==================')
    response = requests.get(f'https://www.kanxiaojiejie.com/page/{page}')
    data_html = response.text
    # 提取詳情頁
    zip_data = re.findall('<a href="(.*?)" target="_blank"rel="bookmark">(.*?)</a>', data_html)
    for url, title in zip_data:
        print(f'----------------正在爬取{title}----------------')
        if not os.path.exists('img/' + title):
            os.mkdir('img/' + title)
        resp = requests.get(url)
        url_data = resp.text
        selector = parsel.Selector(url_data)
        img_list = selector.css('p>img::attr(src)').getall()

        for img in img_list:
            img_data = requests.get(img).content
            img_name = img.split('/')[-1]
            with open(f"img/{title}/{img_name}", mode='wb') as f:
                f.write(img_data)
            print(img_name, '爬取成功！！！')
        print(title,'爬取成功！！！')

升級多線程版本

把每一塊都封裝一個函數, 每個函數都有它特定的功能

先導入模塊

import requests # 第三方模塊 pip install requests
import re # 正則表達式模塊 內置模塊
import time
import concurrent.futures
import os
import parsel

發送請求

def get_response(html_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 為什么這里要 requests.get()  post() 請求會更安全...
    response = requests.get(url=html_url, headers=headers)
    return response

保存數據

def save(title, img_url):
    img_data = requests.get(img_url).content
    img_name = img_url.split('/')[-1]
    with open("img\\" + title + '\\' + img_name, mode='wb') as f:
        f.write(img_data)

解析數據獲取圖片url地址以及標題

def parse_1(data_html):
    zip_data = re.findall('<a href="(.*?)" target="_blank"rel="bookmark">(.*?)</a>', data_html, re.S)
    return zip_data

解析數據獲取圖片url地址以及標題

def parse_2(html_data):
    selector = parsel.Selector(html_data)
    img_list = selector.css('p>img::attr(src)').getall()
    return img_list

創建文件夾

def mkdir_img(title):
    if not os.path.exists('img\\' + title):
        os.mkdir('img\\' + title)

主函數

def main(html_url):
    html_data = requests.get(html_url).text
    zip_data = parse_1(html_data)
    for url, title in zip_data:
        mkdir_img(title)
        html_data_2 = get_response(url).text
        img_list = parse_2(html_data_2)
        for img in img_list:
            save(title, img)
        print(title, '爬取成功！！！')

程序的入口

if __name__ == '__main__':
    time_1 = time.time()
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=10)
    for page in range(1, 11):
        url = f'https://www.kanxiaojiejie.com/page/{page}'
        exe.submit(main, url)
    exe.shutdown()
    time_2 = time.time()
    use_time = int(time_2) - int(time_1)
    print(f'總計耗時:{use_time}秒')

總耗時：80秒

對於本篇文章有疑問，或者想要數據集的同學也加資料分享解答群：1039649593

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 用python寫一個爬蟲——爬取性感小姐姐 Python爬蟲：爬取美拍小姐姐視頻【Python爬蟲】太刺激了！本來只想爬個視頻的，誰知自己淪陷進去了（附源碼） 2021最新版Python爬取抖音小姐姐短視頻，無水印，超級詳細！（附視頻/源碼） Python爬蟲案例教學演示：爬取“絕對領域”二次元小姐姐圖片 python爬蟲，一段完整的python爬蟲批量下載網站圖片資源的代碼 15行Python代碼能干嘛？能寫一個抖音網頁版的簡易爬蟲（附源碼）小姐姐教你定制一個Logstash Java Filter 我用Python爬取了女神視界，爬蟲之路永無止境【內附源碼】用Python監聽鄰居家小姐姐的上網行為

【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的代碼（附源碼）

前言

環境介紹

【付費VIP完整版】只要看了就能學會的教程，80集Python基礎入門視頻教學

爬蟲最基本思路

目標網站

簡單的通用爬蟲代碼

升級 多線程版本

把每一塊都封裝一個函數, 每個函數都有它特定的功能

先導入模塊

發送請求

保存數據

解析數據 獲取圖片url地址以及標題

解析數據 獲取圖片url地址以及標題

創建文件夾

主函數

程序的入口

總耗時：80秒

對於本篇文章有疑問，或者想要數據集的同學也加資料分享解答群：1039649593

免責聲明！

升級多線程版本

解析數據獲取圖片url地址以及標題

解析數據獲取圖片url地址以及標題