Python網絡爬蟲實戰(五)批量下載B站收藏夾視頻

本文轉載自查看原文 2019-09-28 10:38 1147 爬蟲/ python/ Python網絡爬蟲實戰

我們除了爬取文本信息，有的時候還需要爬媒體信息，比如視頻圖片音樂等。就拿B站來說，我的收藏夾內的視頻可能隨時會失效，所以把它們下載到本地是非常保險的一件事。

對於這種大量列表型的數據，可以猜測B站收藏夾的請求中，詳細的收藏詳細可能會是異步加載的，因為這部分數據可能比較龐大。

我們來分析一下網絡請求。

可以看到對收藏夾的請求是指定URL加收藏夾的id號，我們爬取的前提是這個收藏夾是公共收藏夾，不然是無法訪問的。

再來看他的返回，明顯沒有收藏視頻的信息，所以可以判斷收藏視頻的信息是通過api接口異步加載的。

詳細查看一下其他的請求，你會發現這樣一條。

可以看到這里返回了json數據，內容就是我們收藏夾中的視頻，但是這里這有20個，再來看請求的URL。

https://api.bilibili.com/medialist/gateway/base/spaceDetail?media_id=88854277&pn=1&ps=20&keyword=&order=mtime&type=0&tid=0&jsonp=jsonp

media_id是收藏夾的id號，pn是代表哪一分頁，ps是當前分頁中視頻數量。

那么我們就可以調用這個api來拿到所有收藏的視頻了。

我們的視頻分頁當然不可能只有一頁，所以我們可以遍歷pn遞增。

i = 1 
while 1 :
    url = 'https://api.bilibili.com/medialist/gateway/base/spaceDetail?media_id=88854277&pn='+ str(i) +'&ps=20&keyword=&order=mtime&type=0&tid=0&jsonp=jsonp'
    html = requests.get(url)
    i = i + 1
    print(html.text)

這樣就能拿到一個收藏夾下所有視頻了，當i超過收藏夾頁數時，直接異常退出即可。

接下來我們需要解析出每一個視頻的id。

根據之前說的json解析，我們很容易就能用

res['data']['medias']

來獲得所有的視頻，然后再根據下標解析出每一個視頻。

res = json.loads(html.text)
len_video = len(res['data']['medias'])
for id in range(0,len_video):
    create_thread(res['data']['medias'][id])

這樣我們就可以獲取當前頁視頻數量，然后創建線程進行下載了，因為下載是一個非常占IO的事情，如果你單線程執行，下載一個視頻再下載另一個，這樣會很慢，我們可以給每一個視頻創建一個線程來提高速度。

def create_thread(res):
    thread = myThread(res['id'],res['title'],res['id'])
    thread.start()

創建線程的線程號是視頻的id號，線程名是視頻名。


class myThread(threading.Thread):  # 繼承父類threading.Thread
    def __init__(self, threadID, name, counter):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.name = name
        self.counter = counter
    def run(self):
        download_video(self.threadID)

線程類如上，里面有兩個函數，__init__是默認的線程初始化函數，里面就是我們創建線程時傳入的id和name。第二個函數是線程執行時的run方法，也就是我們定義線程的具體要做的事，里面只有一個download_video方法。

# 下載視頻
def download_video(av_id):
    os.system('you-get -o d:/vedio/ https://www.bilibili.com/video/av'+str(av_id))

在下載函數中，我們可以調用you-get來幫助我們解析下載視頻(不要問為什么調you-get，自己解析太麻煩了)。

這樣我們就完成了。

下載完成后：

源碼地址: https://github.com/CasterWx/VideoDown

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python網絡爬蟲實戰(三)照片定位與B站彈幕 python下載B站視頻。。。如何下載B站視頻收藏夾 B站視頻下載批量拼接合成工具 Python爬蟲b站視頻彈幕並生成詞雲圖分析 Python爬蟲一爬取B站小視頻源碼用python批量爬取B站視頻彈幕（評論） Python實戰爬蟲——B站封面爬取 B站視頻下載（VideoHelper）