短視頻爬取及blob反扒

本文轉載自查看原文 2020-04-12 21:13 1525 爬蟲

爬取梨視頻中的短視頻數據

# 爬取梨視頻中的短視頻數據：
# url：https://www.pearvideo.com/category_1
# 將最熱板塊下的短視頻數據進行爬取且存儲到本地。


import re
url = "https://www.pearvideo.com/category_1"
response = requests.get(url=url,headers=headers).text
tree = etree.HTML(response)
tree = tree.xpath("//ul[@id='listvideoListUl']/li")
for i in tree[0:3]:
    z = i.xpath(".//a/@href")[0]
    url = "https://www.pearvideo.com/"+z
    response = requests.get(url=url,headers=headers).text
    tree =etree.HTML(response)
    title =tree.xpath("//div[@id='detailsbd']/div[1]/div[2]/div/div[1]/h1/text()")[0]
    #文件名不要有特殊符號！像管道符|不能有！  其他的,.:盡量不要有，但是可以接受
    if "|" in title:
        title = title.replace("|","")
    tree = tree.xpath("//div[@id='detailsbd']/div[1]/script[1]/text()")[0]
    rule = 'srcUrl="(.*?)"'
    result = re.findall(rule,tree)[0]
    response =requests.get(url=result,headers=headers).content
    with open("zhou/"+title+".mp4","wb") as f:
        f.write(response)

以上獲取梨視頻發現他是動態加載的video中src的url地址。所以我們無法可見即可得。

經過抓包工具中發的get請求中response選項卡中發現srcUrl中有這個src屬性。並且里面得網址就是需要的視頻數據網址。所以找到那塊標簽獲取text文本內容，通過正則篩選出來url，然后去訪問

爬取梨視頻中的短視頻數據（blob）

一些網站的視頻為了防止下載，通常會采用blob加密的做法；

其實這不是特殊的視頻傳輸協議，只是一種 HTML5 Video Blob格式。

並且大部分網頁視頻的格式都是 m3u8。

去此網站下載解析器：http://www.pc6.com/softview/SoftView_372291.html

把m3u8后綴得網址輸入進去。解析器會自動給你下載

打開下載路徑他就在其中

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 抖音短視頻爬取實戰 python爬取抖音短視頻 Python爬蟲---爬取抖音短視頻 Python爬蟲---爬取抖音短視頻 043 抖音短視頻爬取實戰爬取抖音短視頻改良版（無水印版） 2021最新版Python爬取抖音小姐姐短視頻，無水印，超級詳細！（附視頻/源碼）爬取VIP視頻爬取騰訊視頻爬取網站視頻