Python爬蟲實現vip電影下載

本文轉載自查看原文 2020-04-25 18:44 1985

Python爬蟲實現vip電影下載

爬蟲目的

實現對各大視頻網站vip電影的下載，因為第三方解析網站並沒有提供下載的渠道，因此想要實現電影的下載。

實現思路

1.選擇一個合適的vip解析網站，這里選擇了無名小站的接口，因為嘗試了很多網站，有些網站想要爬取很困難，無名小站相對簡單,接口為www.wmxz.wang/video.php?url=[vip電影的鏈接]
2.利用Fiddler進行抓包，模擬瀏覽器發送post請求,獲取電影實際下載地址。
3.使用PyQt5進行包裝，實現多樣化的功能。（可選）

頁面分析

我使用Fiddler抓包，首先，瀏覽器進入接口，這里隨便加一個vip電影的鏈接，然后來看post請求:

我們已經知道了提交post請求的url，箭頭所指的地方是提交的表單，里面的url就是我們要下載vip電影的ur，出現%3F這些是因為將url編碼為了ASCII碼，這里可能使用urllib對其進行解析，很簡單；vkey需要我們獲取，其實它就藏在Post請求之前get請求返回的頁面中，vkey是動態變化的，每一次都不一樣。紅線部分是服務器返回的信息，前幾天我爬取的時候里面的url還是電影的下載鏈接，現在變成了一個m3u8文件，里面的網址也是編碼后的，我們需要用urllib進行解碼，我們手動打開https://youku.cdn2-okzy.com/20200408/8808_23a9c669/index.m3u8看看里面的內容，下載后打開

發現里面並沒有我們想要的ts文件，但是在文件中有一行1000k/hls/index.m3u8，也是以m3u8為后綴的，使用前面的url與文件中的部分地址拼接，結果為: https://youku.cdn2-okzy.com/20200408/8808_23a9c669/1000k/hls/index.m3u8，再次用瀏覽器手動打開，下載內容后發現里面是一個個ts文件，最后將ts文件下載后拼接即可(因為我爬的時候還是電影鏈接，寫博客時發現改了，所以拼接方法我也不會，網上應該容易找到)。

下面我們只要獲取vkey就可以得到這些ts文件地址了，我們向前看，找返回內容有vkey的get請求:

對比發現和post請求中的vkey一樣，接下來就可以開始編寫代碼了。

代碼實現

獲取vkey，從上面的分析我們可以知道，get請求的網址為
https://www.administratorm.com/WANG.WANG/index.php?url=[要下載的vip電影]
我采用輸入鏈接的方式來拼接get請求要訪問的url，順便使用urllib庫將輸入鏈接編碼，方便后面的post請求使用
headers1 = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
'Referer':'https://www.administratorm.com/index.php?url=https://v.qq.com/x/cover/mzc00200q06w7zx/j0033kbdjsv.html'
}

headers2 = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
#定義接口鏈接
api_url = 'https://www.administratorm.com/WANG.WANG/Api.php'
input_url = input("請輸入電影url鏈接:")
print("請稍等!")
get_key_url = 'https://www.administratorm.com/WANG.WANG/index.php?url='+input_url
parsed_url = parse.quote(input_url,safe='')
1
2
3
4
5
6
7
8
9
10
11
12
這里創建一個會話，會話是用於服務器記錄用戶身份的，然后就是發送get請求，獲取網頁源碼，然后使用re匹配到vkey的內容，這里要注意的是get請求中的verify=False參數，其實我也不太明白，是一些網站有SSl認證，加了這個參數就可以跳過認證，加了此參數可能會有很多警告，使用 logging.captureWarnings(True) 設置不顯示警告。

sess = requests.session()
vkey = get_key(sess,get_key_url)

def get_key(sess,get_key_url):
logging.captureWarnings(True)
response = sess.get(get_key_url,headers=headers1,verify=False)
response.encoding=response.apparent_encoding
content = response.text
vkey = re.findall('vkey.*?\'(.*?)\'',content)[0]
return vkey
1
2
3
4
5
6
7
8
9
10
2.制作表單，獲取了vkey后，我們就可以制作提交post請求的表單了，代碼很簡單，就不做介紹了。

datas = make_dataform(parsed_url,vkey)
def make_dataform(parsed_url,vkey):
datas = {
'url':parsed_url,
'wap':'0',
'ios':'0',
'vkey':vkey,
'type':''

}
return datas
1
2
3
4
5
6
7
8
9
10
11
3.發送post請求，這里再次說明，由於我原來post請求返回的信息是電影下載地址，所以我獲得的url是下載地址，現在再提交post請求獲得的是m3u8文件。

download_url = post(sess,datas)
def post(sess,datas):
response = sess.post(api_url,headers=headers2,data=datas)
response.encoding=response.apparent_encoding
u = json.loads(response.text)
return u['url']
1
2
3
4
5
6
4.下載電影,由於鏈接不同，我就把我下載電影的代碼放到這里，做個參考。

down_load(sess,download_url)
def down_load(sess,download_url):
print("正在准備下載電影")
response = requests.get(download_url,headers=headers2,verify=False)
total_size = response.headers['Content-Length']
print("將要下載的電影大小:{}MB".format(round(int(total_size)/1024/1024,2)))
batch_size = int(total_size)//100
#返回迭代器：是將二進制流按大小分割之后的
k = input("請輸入文件路徑(C/D):")
filename = input("請輸入保存文件名:")
with open(r"{}:/電影/".format(k)+filename+".mp4",'wb') as f:
i = 0
for content in response.iter_content(chunk_size=batch_size):
f.write(content)
print('\r','#'*i+' 已下載{}%'.format(i),end='\r',flush=True)
i += 1
print("下載成功")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
程序界面

使用PyQt5將上面的代碼包裝起來，使其更加美觀，並添加一些功能，由於WebEngineView已經不能播放flash了，並且有些需要新建標簽的鏈接打不開，所以中間的瀏覽器很雞肋，就圖個好看吧。

這里就不詳細講了，PyQt5也比較簡單，容易上手，如果需要的話聯系我吧。
————————————————

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲實現各視頻網站vip付費電影下載 python網絡爬蟲爬取vip電影【轉】python爬蟲之騰訊視頻vip下載爬蟲實現qq音樂歌單無vip批量下載 Python爬蟲實現抓取騰訊視頻所有電影【實戰必學】一個簡單python爬蟲的實現——爬取電影信息 python實現各大視頻網站電影下載用Scrapy爬蟲下載圖片(豆瓣電影圖片) python爬蟲：抓取下載電影文件，合並ts文件為完整視頻 Python實現爬蟲從網絡上下載文檔