python爬取抖音APP視頻教程


本文講述爬取抖音APP視頻數據(本文未完,后面還有很多地方優化總結)

公眾號回復:抖音

即可獲取源碼

 

1、APP抓包教程,需要用到fiddler

fiddler配置和使用查看>>王者榮耀盒子APP抓包配置方法

2、尋找返回用戶aweme_count和uid數據的接口

進入我關注的抖音用戶主頁,找到用戶的抖音號並記錄下來,該抖音號為unique_id(unique_id區別於uid)

用戶主頁有如下數據:如圖所示

注:該頁面並沒有返回我們需要的uid數據,需要通過如下方式搜索,在另外一個頁面抓包才能獲取

 

抖音主頁點擊搜索圖標

 

輸入用戶主頁獲取到的unique_id值,並點擊搜索

 

進入該頁面,切換到用戶欄,該頁面會返回我們需要的數據和接口

 

fiddler抓包,該接口返回我們需要的兩個參數,作品數aweme_count和用戶uid

 

上代碼,input輸入的為用戶主頁的unique_id,傳入下面的方法中

 

拿到unique_id,我們請求接口,提取我們需要的數據aweme_count和uid,並打印成功,這一步結束

注:本網站為HTTPS加密,需要加verify=False參數,並要加headers

 

 

3、接下來尋找視頻播放頁面接口

手機切換到用戶主頁,會出現我們需要抓包的接口,因為用戶主頁有視頻,自然接口在這里面

 

抓包,成功抓到下面圖中所示的share_url接口,該接口需要我們傳2個參數,就是上一步我們獲取到的aweme_count和uid

注:share_url並不是最終我們真正下載視頻的接口,需要對share_url返回的數據進一步提取,才能找到真正的視頻接口

 

上代碼,但該接口測試一些發現有些不方便用,經查閱網上一些資料,發現需要用到抖音之前的老接口,如代碼中所示

 

這里獲取得到的video_urls是一個假的視頻接口,需要進一步提取真的視頻接口

 

將video_urls傳進下載視頻的方法中,中間我調用了get_download_url方法,進一步提取真正的視頻接口

 

提取真正視頻接口,通過get請求假接口,在返回的一大坨響應中通過正則匹配提取

 

 

 

這里簡單截圖了兩個視頻接口的區別,這幅圖是假的視頻接口,雖然也有視頻,但並不是真正的

 

下面這個才是我們真正的視頻接口,整個頁面只有一個視頻,直接下載視頻數據

 

 

至此,抖音爬取告一段落,還遺留兩個問題,尚未完全搞出來

1、如何獲取所有用戶的抖音unique_id,而不必手動每次去查看后輸入

2、如何去水印

這兩個問題也已經嘗試,沒有那么容易,有興趣的同學歡迎測試,有思路歡迎探討

歡迎添加好友學習探討,備注(CSDN)


---------------------
作者:python爬蟲人工智能大數據
來源:CSDN
原文:https://blog.csdn.net/weixin_41666747/article/details/80501923
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM