爬取B站up主相冊原圖


爬取B站up主相冊原圖

從 Network 選項中找到 api 鏈接。

從 Preview 選項中一層一層地剝,直到找到真實的圖片鏈接地址。

下載的圖片可以達到 12MB,下載的是原圖。

源碼:

# -*- coding: utf-8 -*-
# @Time    : 2020/6/17 20:54
# @Author  : banshaohuan
# @Site    :
# @File    : album_bilibili.py
# @Software: PyCharm
import os
import requests
import json
import time
from fake_useragent import UserAgent


def get_fake_agent():
    headers = {"User-Agent": UserAgent().random}

    return headers


# 獲取圖片鏈接
def get_urls(uid, page=0):
    # 存放圖片鏈接
    pic_list = []
    while True:
        url = f"https://api.vc.bilibili.com/link_draw/v1/doc/doc_list?uid={uid}&page_num={page}&page_size=30&biz=all"
        content = requests.get(url, headers=get_fake_agent(), verify=False).content

        time.sleep(2)

        dic = json.loads(content)
        if len(dic.get("data").get("items")) == 0:
            break
        # 返回的數據字典中圖片信息在items中
        item_list = dic.get("data").get("items")
        for item in item_list:
            # item是圖片鏈接
            item = item.get("pictures")[0].get("img_src")
            pic_list.append(item)

        page += 1
    return pic_list


# 保存圖片到本地
def save_pic(pic_list, file_path="D:/Images"):
    if not os.path.exists(file_path):
        os.mkdir(file_path)

    for i in range(len(pic_list)):
        content = requests.get(
            pic_list[i], headers=get_fake_agent(), verify=False
        ).content
        time.sleep(2)
        with open(f"{file_path}/{i+1}.{pic_list[i][-3:]}", "wb") as f:
            f.write(content)

        print(f"{i+1}.{pic_list[i][-3:]} is downloaded")


def main():
    # 不顯示警告信息
    requests.packages.urllib3.disable_warnings()
    uid = 999999999 # 用戶id,up主空間url中的最后一串數字
    pic_list = get_urls(uid)
    save_pic(pic_list)


if __name__ == "__main__":
    main()

我在源碼中增加了睡眠和獲取隨機 headers,這些都可以根據個人愛好更改。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM