40行代碼教你利用Python網絡爬蟲批量抓取小視頻

本文轉載自查看原文 2020-02-01 16:16 2232 網絡爬蟲/ Python入門/ Python網絡爬蟲

/1 前言/

還在為在線看小視頻緩存慢發愁嗎？還在為想重新回味優秀作品但找不到資源而憂慮嗎？莫要慌，讓python來幫你解決，40行代碼教你爬遍小視頻網站，先批量下載后仔細觀看，豈不美哉！

/2 整理思路/

這類網站一般大同小異，本文就以鳳凰網新聞視頻網站為例，采用倒推的方式，給大家介紹如何通過流量分析獲得視頻下載的url，進而批量下載。

/3 操作步驟/

/3.1 分析網站，找出網頁變化規律/

1、首先找到網頁，網頁詳情如下圖所示。

2、該視頻網站分為人物、娛樂、藝術等不同類型，本文以體育版塊為例，下拉到底端，如下圖所示。

3、根據上圖的結果，我們可以發現該網站是動態網頁，打開瀏覽器自帶流量分析器，點擊加載更多，找出網頁變化規律，第一個就是，請求網址和返回結果如下圖。標記處為頁碼，此時是第3頁。

4、返回結果包含視頻的title、網頁url、guid（相當於每個視頻的標志，后續有用）等信息，如下圖所示。

5、每個網頁里邊包含24個視頻，打印出來是這樣的，如下圖所示。

/3.2 尋找視頻網頁地址規律/

1、先打開流量分析器，播放視頻進行抓包，找到幾個mp2t文件，如下圖所示。

2、它們的網址我依次找了出來，放到文本文件中存放起來，以發現它們之間的規律，如下圖所示。

3、大家發現規律了嗎？網址中的p26275262-102-9987636-172625參數就是視頻的guid（上述已經得到），只有range_bytes參數是變化的，而且是從0到6767623，很顯然這是視頻的大小，而且視頻是分段合成的。找到這些規律之后，接下來我們需要繼續進行細挖視頻地址的出處。

/3.3 尋找視頻的下載原始地址/

1、先考慮一個問題，視頻的地址是從哪來的呢？一般情況下，先在視頻網頁里看看有沒有，如果沒有，我們就在流量分析器里，沿着第一個分段視頻往上找，肯定是有某個網址返回了這些信息，很快，我在1個vdn.apple.mpegurl文件里發現了下圖這個。

2、太驚喜了，這不就是我們要找的信息么，再看看它的url參數，如下圖所示。

3、上圖參數看起來很多的樣子，不過不用怕。還是利用老辦法，先在網頁里看看有沒有，沒有的話還在流量分析器里往上找，功夫不負有心人，我找到了下圖這個。

4、它的url如下圖所示。

5、仔細找找規律，我們發現唯一需要變化的就是每個視頻的guid了，這個第一步已經得到了。另外，返回結果包含了上述除了vkey的所有參數，而且這個參數最長，那該怎么辦呢？

6、不要慌，萬一這個參數沒有用呢，先把vkey去掉試一試。果不其然，果然沒有什么用，現在整個過程已經捋順了，現在可以擼代碼了。

/3.4 代碼實現/

1、在代碼里邊，設置多線程下載，如下圖所示，其中頁碼可以自己進行修改哈。

2、解析返回參數，json格式的，使用json庫進行處理，如下圖所示。通過解析，我們可以得到每個視頻的title、網頁url、和guid。

3、模擬請求，獲得除Vkey外的參數，如下圖所示。

4、利用上一步中的參數，進行模擬請求，獲得包含分段視頻的信息，如下圖所示。

5、將分段視頻合並，保存在1個視頻文件，並以title命名，如下圖所示。

/3.5 效果呈現/

1、當程序運行之后，我們便可以看到網頁中的視頻嘩啦嘩啦的在本地文件夾中進行呈現，如下圖所示。接下來，媽媽再也不用擔心我喜歡的視頻找不着了，真香！

當然了，如果想更加直觀的話，可以在代碼中加入維測信息，這個大家可以自己手動設置一下。

/4 總結/

本文主要基於Python網絡爬蟲，利用40行代碼，針對小視頻網頁，進行批量獲取網頁視頻到本地。方法簡單易行，而且行之有效，歡迎大家踴躍嘗試。如果想獲取本文代碼，請zhi姐訪問https://github.com/cassieeric/python_crawler/tree/master/little_video_crawler，即可獲取代碼鏈接，如果覺得不差，記得給個star噢。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python_requests ~爬蟲~小視頻~~~ Python爬蟲一爬取B站小視頻源碼 Python爬蟲-抖音小視頻-mitmproxy與Appium 抓取B站小視頻如何用anyproxy抓取tiKtok小視頻 python利用ffmpeg將一段大視頻等份的切成多個小視頻段 python利用opencv將一段大視頻等份的切成多個小視頻段 Python系列爬蟲之B站Top100小視頻下載 Python批量下載抖音高清無水印小視頻【python】爬蟲爬取韓國美女主播直播小視頻