爬蟲技巧-西瓜視頻MP4地址獲取

本文轉載自查看原文 2018-10-21 19:18 1303

記錄一下西瓜視頻MP4地址的獲取步驟

目標：

指定西瓜視頻地址，如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830，獲取其視頻MP4文件的下載地址

以下使用chrome瀏覽器

開始分析：

首先在瀏覽器中打開視頻頁面，打開審查元素（右鍵-> 審查元素或 F12）並刷新頁面，查看network選項中抓到的包

技巧1：

由於我們獲取的是視頻文件的下載地址，而視頻文件一般比較大，所以可以在network的包列表中使用 Size 排序一下查看最大的幾個包

如圖：

這里我們很容易就能確定視頻文件的地址

http://v11-tt.ixigua.com/5cc4c0ae0f7d6f87014dc0f0058157e0/5bcc7300/video/m/220f87599d445a14a53803fd01d86816e971157c7a70000cab5121742cc/

（你得到的地址和我得到的可能不一樣，不過url路徑中的最后一串字符串應該是一樣的）

下面我們就要尋找這個地址是從哪里獲取的，一般做法就是截取url中比較有代表的部分（這個看經驗，你應該懂的）來搜索，搜索可以使用chrome審查元素的Search功能

這個搜索會查找network欄中所有包的響應內容，如果搜到的話，我們就可以確定視頻文件地址的來源。

為什么這么做呢？

按照正常的想法，首先這個視頻文件的獲取請求是瀏覽器發起的，那么瀏覽器肯定在發起前就得到了視頻文件的地址，那么地址存在什么地方呢？一般來說，不外乎直接寫

在網頁源代碼中或者使用一個ajax請求之類的獲取一下視頻地址，所以這個地址肯定存在於我們目前所能看到的network列表中的包之中。

BUT，在這個例子中，搜索結果為空。嘗試各種截取方法比如 220f87599d445a14a53803fd01d86816e971157c7a70000cab5121742cc、5cc4c0ae0f7d6f87014dc0f0058157e0、v11-tt.ixigua.com

都搜索不到。

好吧，既然搜不到，那我們就用暴力一點的辦法，好在這個網頁的network包列表並不多，我們就一個一個找就好了，找的過程一般可以忽略css、圖片、多媒體等文件，

優先查看json格式的文件

下面人工查看中。。。

查看一遍之后呢，我發現了一個可疑的鏈接

https://ib.365yg.com/video/urls/v/1/toutiao/mp4/v02004bd0000bc9po7aj2boojm5cta5g?r=048136401358795045&s=3128215333&aid=1190&callback=axiosJsonpCallback1&_=1540123000124

首先，url就很可疑，里面包含各種敏感關鍵詞，如 mp4、urls等

其次，內容可疑：

video_list都出來了，不是它還能是誰呢？但是，定睛一看，這個內容里面的url格式不大對，一看就像是加密過后的，怪不得搜不到呢

下面就是想辦法找到解密方法，來驗證一下，這里看到的是不是我們想要的視頻地址了

先捋一下思路，我們找到的這些數據是瀏覽器請求回來的，既然請求這些數據，肯定會有用到的地方，下面我們就來找一下這些數據在哪里被使用了，怎么找呢，還是搜索，拿這些數據中的變量名來搜

這些數據中可疑變量有兩個：backup_url_1、main_url，第一個一看就是備用的，所以我們拿第二個搜吧

搜索結果如圖：

下面在這些包中定位main_url所在的代碼，很幸運，第一個就是我們想要的（tt-video.js）

如圖:

從代碼中我們可以看到，main_url使用了base64decode來進行解密，下面使用代碼驗證（這個請自行驗證）一下，果然得到了我們想要的視頻地址

此時，我們已經有了從這個包中獲取視頻地址的方法了，那么下個問題是，這個包的地址是如何生成的？

首先分析一下這個包的url的組成：

https://ib.365yg.com/video/urls/v/1/toutiao/mp4/v02004bd0000bc9po7aj2boojm5cta5g?r=048136401358795045&s=3128215333&aid=1190&callback=axiosJsonpCallback1&_=1540123000124

首先去掉無關緊要的參數，方法很簡單，直接在瀏覽器中打開這個url，然后嘗試刪減參數，不斷測試就可以了，刪減后的url如下

https://ib.365yg.com/video/urls/v/1/toutiao/mp4/v02004bd0000bc9po7aj2boojm5cta5g?r=048136401358795045&s=3128215333

然后發現，其中有三個東西不知道哪里來的，下面繼續使用我們的搜索工具來尋找，一個一個來。

（注意：跟隨文章一步一步走的時候可能看到的參數和我這里寫的參數不一樣，請按照實際的來搜索）

先是 v02004bd0000bc9po7aj2boojm5cta5g，搜索結果如下：