Python爬蟲入門教程 43-100 百思不得姐APP數據-手機APP爬蟲部分


1. Python爬蟲入門教程 爬取背景

2019年1月10日深夜,打開了百思不得姐APP,想了一下是否可以爬呢?不自覺的安裝到了夜神模擬器里面。這個APP還是比較有名和有意思的。

下面是百思不得姐的簡介

年度超好玩的搞笑內容平台,整個互聯網能嗨翻宇宙的神級腦洞大神段子手們都在這..
新鮮的視頻,爆笑的段子,有趣的GIF囧圖,承包所有你無聊的時間。
更有“姐夫”們毀天滅地“神評論”,花式吐槽,腦洞大開,人人都是段子手……

1500W的下載量,用戶群體比較龐大。

python3爬蟲入門教程

2. 爬蟲的抓包分析階段

安裝到模擬器內部,打開Fiddler,運行程序,看下圖,左側最后出現的鏈接,就是我們想要的了
python3爬蟲入門教程

得到待爬取連接如下,所有的request請求,注意到,並沒有什么加密參數

GET http://s.budejie.com/v2/topic/list/10/0-0/budejie-android-8.0.1/0-25.json?uid=&t=&market=360zhushou&client=android&appname=budejie&device=&jdk=1&ver=8.0.1&udid=&from=android HTTP/1.1
ver: 8.0.1
client: android
market: 360zhushou
udid: 866174010820641
mac: 9C:30:5B:38:35:2F
os: 4.4.2
appname: budejie
visiting:
Referer: http://www.budejie.com
t: 1547132330768
Host: s.budejie.com
Connection: Keep-Alive
Accept-Encoding: gzip

去掉無用參數, 得到如下鏈接

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json 

剩下的就是分析了

3. 分析頁面規律,得到鏈接拼接方式

爬蟲就是要找到鏈接的規律,下面是第一頁和第二頁的數據

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json
http://d.api.budejie.com/v2/topic/list/29/29082060-28984879/budejie-android-8.0.1/1544334121-25.json

提取公用部分
http://d.api.budejie.com/v2/topic/list/29/{參數1}-{參數2}/budejie-android-8.0.1/{參數3}-25.json
三個參數位置發生了改變
還有兩個數字,一個是29,這個目測應該是類別,一個是25,這個應該是每頁顯示的數據條數

那么我們看一下,第二個鏈接中參數1,2,3分別是怎么得到的就可以了,看一下第一頁的返回數據

python3爬蟲入門教程

上圖得到參數3的值

展開list看到第一項的id為29082060 OK,得到參數1的值了,最后一項肯定是參數2的值,那么我們找到對應參數之后剩下的就是編碼了。
python3爬蟲入門教程

4. 爬蟲具體編碼部分

依舊是你自己來寫吧~任何一個模塊或者爬蟲框架都是很容易就可以實現的,重要的是我們抓到了對應鏈接就可以了。

百思不得姐手機APP收工

python3爬蟲入門教程


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM