本文講述爬取抖音APP視頻數據(本文未完,后面還有很多地方優化總結)
公眾號回復:抖音
即可獲取源碼
1、APP抓包教程,需要用到fiddler
fiddler配置和使用查看>>王者榮耀盒子APP抓包配置方法
2、尋找返回用戶aweme_count和uid數據的接口
進入我關注的抖音用戶主頁,找到用戶的抖音號並記錄下來,該抖音號為unique_id(unique_id區別於uid)
用戶主頁有如下數據:如圖所示
注:該頁面並沒有返回我們需要的uid數據,需要通過如下方式搜索,在另外一個頁面抓包才能獲取
抖音主頁點擊搜索圖標
輸入用戶主頁獲取到的unique_id值,並點擊搜索
進入該頁面,切換到用戶欄,該頁面會返回我們需要的數據和接口
fiddler抓包,該接口返回我們需要的兩個參數,作品數aweme_count和用戶uid
上代碼,input輸入的為用戶主頁的unique_id,傳入下面的方法中
拿到unique_id,我們請求接口,提取我們需要的數據aweme_count和uid,並打印成功,這一步結束
注:本網站為HTTPS加密,需要加verify=False參數,並要加headers
3、接下來尋找視頻播放頁面接口
手機切換到用戶主頁,會出現我們需要抓包的接口,因為用戶主頁有視頻,自然接口在這里面
抓包,成功抓到下面圖中所示的share_url接口,該接口需要我們傳2個參數,就是上一步我們獲取到的aweme_count和uid
注:share_url並不是最終我們真正下載視頻的接口,需要對share_url返回的數據進一步提取,才能找到真正的視頻接口
上代碼,但該接口測試一些發現有些不方便用,經查閱網上一些資料,發現需要用到抖音之前的老接口,如代碼中所示
這里獲取得到的video_urls是一個假的視頻接口,需要進一步提取真的視頻接口
將video_urls傳進下載視頻的方法中,中間我調用了get_download_url方法,進一步提取真正的視頻接口
提取真正視頻接口,通過get請求假接口,在返回的一大坨響應中通過正則匹配提取
這里簡單截圖了兩個視頻接口的區別,這幅圖是假的視頻接口,雖然也有視頻,但並不是真正的
下面這個才是我們真正的視頻接口,整個頁面只有一個視頻,直接下載視頻數據
至此,抖音爬取告一段落,還遺留兩個問題,尚未完全搞出來
1、如何獲取所有用戶的抖音unique_id,而不必手動每次去查看后輸入
2、如何去水印
這兩個問題也已經嘗試,沒有那么容易,有興趣的同學歡迎測試,有思路歡迎探討
歡迎添加好友學習探討,備注(CSDN)
---------------------
作者:python爬蟲人工智能大數據
來源:CSDN
原文:https://blog.csdn.net/weixin_41666747/article/details/80501923
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!