you-get 一個很強的視頻地址抓取工具


來源:https://github.com/soimort/you-get 

出自於 Mort Yao 大神之手:http://www.geekgrade.com/geeksheet/soimort/blogs

前言(廢話):

  前段時間,我因公司需求。所以要去研究如何拿到視屏的播放地址。一般普通的網站的視屏播放地址還是很好拿到的。但是對於優酷,騰訊這樣的大型視屏資源站就很難拿到視屏資源了。普通的網站你通過網頁就可以直接抓取到視屏的播放地址。但是這些大型就不行,這些網站都是做了防盜鏈的。就拿優酷來講,首先他用了自己的SWF播放器,然后服務器會異步加載一段參數到頁面播放器上去。播放器內部會對這些參數進行一個解析,然后獲取到視頻的播放地址。這個解析過程是比較復雜的。

  最開始我用fiddler4去抓包,還是能夠抓到很多有用信息的。最開始想用逆向JS去做,但是后來發現它的東西好像和JS關系不太大,然后我又用jsop去抓關鍵代碼,發現,他的視屏信息是通過異步加載的,表示jsoup抓不到,后來仔細觀察發現,他的請求一本都是SWF播放器發出來的,沒辦法,只能把他的SWF抓下來,做了一個反編譯后:(如果只是簡單的網頁套用的話,可以用它的swf然后去抓網頁上name="flashvars" 段的value,然后把這段value發給swf后就能播放了。)

  這邊就是主要的東西。

大概知道優酷的大概加密方式就是

  k.youku.com/player/getFlvPath+"/sid/"+$sid+"_"+No+"/st/"+thisVideoType+"/fileid/"+id

  大概就是這個格式 sid 就是securityId 然后加上No(編號)然后后面的 fileId也是經過一系列加密的,並不是簡單的ID。一般是會有一個token  ,K ,ep 參數是比較重要的參數 最后拿這個地址你只是獲取到了一串能夠獲取播放地址的JSON

[{"fileid":"0300080100579F87DDDF300157E54E465E9572-D357-57B7-15CA-646DEC5748A9.mp4","server":"http://117.41.231.17/youku/696AF5871C487D59853F424D/0300080100579F87DDDF300157E54E465E9572-D357-57B7-15CA-646DEC5748A9.mp4"}]

  就如上面這個一樣,雖然server能夠獲取到視頻的地址,但是/youku/后面的那串亂碼是一個SEED加密。也就是說沒多少個小時就會變一次,也就是不可能一次拿到一個永遠不變的地址的。

  優酷的視頻下載全是走的客戶端,也就是說網頁端想要抓取地址,普通的方法是行不通的。后來我對客戶端進行一個數據抓包,然后驚奇的發現TMD根本抓不到任何有用信息,只能無奈的感嘆這客戶端太尼瑪屌了。每次我點擊下載新視頻后再看看抓包信息,空空如也像什么也沒發生過。沒辦反只能走反編譯的路了。。(反編譯工具免費版只能看,,不能復制更別說調試了。。、。。我操。。。)

      扯了這么多,現在進入正題了。you-get 是一個強大的抓取視頻的工具,原理就是上面的swf反編譯后抓取了加密方式,然后對網頁請求進行一個解析,然后從視屏站服務器中騙取地址出來。

     首先這個語言是基於Python 的 先去官方下載最新的(至少3.0以上)的版本,因為這個版本自帶pip3.下好后配好環境

     這邊我就不多說了:http://www.jianshu.com/p/a3f8df948395

     然后打開cmd命令 輸入 

pip3 install --upgrade you-get

     來獲取 you-get 獲取成功后基本的使用方法上面鏈接有。

     接下來就是關鍵了。

     如果你是只想獲取地址的話可以在前面 加  命令

--json

  

you-get --json  youwannaURL

  即可獲取到地址

通過pip3安裝的東西一般放在 你的Python文件夾/Lib/site-packages/  下

  extractor.py 是main 層后的 功能能層。 可以進去看看 有很多方法 ,比如

 

you-get  URL這種不帶參數的話 就會執行這個download 的第一個if 的else語句 直接下載視頻。如果有了 --json 參數的話,就是執行的這個if

 下載的功能在 common.py里面

可以向我這樣加一段來輸出看。或者用return阻斷下載,。

回到輸出json這邊來在json_output.py 下

可以向我這樣,選取自己需要的字段,然后用文件的形式把它輸出。皆大歡喜,拿到了地址了。

更多想要的功能可以自己改代碼~

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM