python3編寫網絡爬蟲19-app爬取

本文轉載自查看原文 2019-02-13 10:22 643 Python3網絡爬蟲

一、app爬取

前面都是介紹爬取Web網頁的內容，隨着移動互聯網的發展，越來越多的企業並沒有提供Web頁面端的服務，
而是直接開發了App，更多信息都是通過App展示的

App爬取相比Web端更加容易反爬蟲能力沒有那么強，而且數據大多數是以JSON形式傳遞的解析更加簡單

在Web端我們可以通過瀏覽器開發者工具監聽到各個網絡請求和響應過程在App端查看內容就需要抓包軟件
例如 WireShark Fiddler Charles mitmproxy AnyProxy等它們原理基本相同

可以通過設置代理的方式將手機處於抓包軟件的監聽下就可以看到App運行過程中發生的所有請求和響應
相當於分析Ajax一樣

如果參數程序是有規律的直接用程序模擬爬取即可
如果沒有規律可以通過mitmdump 對接Python腳本處理response

如果需要自動化可以使用Appium

1.charles的使用

簡介：是一個網絡抓包工具可以用它來做app抓包分析類似Web瀏覽器的開發者工具

安裝官網：

https://www.charlesproxy.com

下載地址：

 https://www.charlesproxy.com/dowload

默認安裝即可

charles 是收費軟件免費試用30天

證書配置

現在很多頁面都在向HTTPS方向發展 HTTPS通信協議應用越來越廣泛如果一個App通信應用了HTTPS協議
那么它的通信數據都會被加密常規的截包方法無法識別內部數據

需要配置SSL證書

Charles是運行在PC端的抓取的是App端的數據所以PC和移動端都要安裝證書

PC端安裝證書

打開charles 點擊Help -> SSL Proxying -> Install Charles Root Certificate 進入安裝證書的頁面

點擊安裝證書點擊下一步選擇將所有證書放入下列存儲點擊瀏覽選擇存儲位置為受信任的根證書頒發機構點擊確定

如果報錯存儲已滿或者只讀解決辦法

win+R 輸入mmc 點擊文件添加刪除管理單元
點擊證書點擊添加選擇計算機賬戶下一步確定

重新導入證書

移動端安裝證書

首先保證手機和電腦在同一局域網（有網線的情況下）手機設置選擇wifi 手動代理添加charles的ip和端口
設置完電腦會彈出是否信任此設備點擊allow即可

手機瀏覽器（盡量不要用默認的瀏覽器可以使用QQ瀏覽器）打開chls.pro/ssl 給證書添加個名字點擊確定就能完成證書的安裝

手機訪問互聯網數據包會流經charles charles再轉發數據包到真實服務器服務器在返回數據包流經charles
在轉發給手機

設置好charles並且配置好證書

示例打開京東選一個商品打開商品評論頁面不斷下拉加載評論

左側會有一個api.m.jd.com 點擊其中一條切換到contents選項卡可以看到JSON數據核對結果和app上看到的內容一致
這樣就捕獲到了在上拉刷新的請求和響應內容

重發 charles另一個強大功能可以將捕獲的請求加以修改並重新發送

可以用來做調試

2.mitmproxy的使用

是一個支持HTTP和HTTPS的抓包程序類似Fiddler charles 只不過是一個控制台形式操作

mitmproxy還有兩個相關組件 mitmdump 命令行接口利用它可以對接python腳本
另一個是mitmweb 一個web程序通過它可以清楚觀察捕獲的請求

安裝

下載地址：

https://github.com/mitmproxy/mitmproxy/releases

默認安裝即可

證書配置

啟動mitmdump 找到mitmproxy文件下ca證書雙擊mitmproxy-ca.pl2 默認下一步即可
選擇將所有證書放入下列存儲點擊瀏覽選擇存儲位置為受信任的根證書頒發機構點擊確定

手機將文件發送到手機點擊安裝

通過手機微信助手發送 mitmproxy-ca-cert.cer 手機點擊wifi 高級設置安裝證書默認download 返回上一級內部存儲空間

tencent -> MicroMsg -> Download 點擊安裝

運行 mitmdump 是mitmproxy的命令行接口同時可以對接python腳本

示例：

可以使用命令啟動mitmproxy 例如 mitmdump -w outfile 截獲的數據都會被保存到此文件中

指定腳本來處理截獲的數據使用-s參數

mitmdump -s test.py

腳本文件內容如下

def request(flow):
flow.request.headers['User-Agent'] = 'MitmProxy'
print(flow.request.headers)

這里定義一個request（）方法參數為flow 通過request屬性獲取當前請求對象打印輸出請求的請求頭
將User-Agent修改成了MitmProxy

手機端訪問 http://httpbin.org/get

日志輸出

mitmdump 提供了專門的日志傳輸系統可以設定不同顏色輸出結果修改腳本如下：

確保安裝好mitmproxy pip install mitmproxy

from mitmproxy import ctx

def request(flow):
flow.request.headers['User-Agent'] = "MitmProxy"
ctx.log.info(str(flow.request.headers))#輸出白色
ctx.log.warn(str(flow.request.headers))#輸出黃色
ctx.log.error(str(flow.request.headers))#輸出紅色

request

示例

from mitmproxy import ctx

def request(flow):
　　request = flow.request
　　info = ctx.log.info
　　info(request.url)
　　info(str(request.headers))
　　info(str(request.cookies))
　　info(request.host)
　　info(request.method)
　　info(str(request.post))
　　info(request.scheme)

修改腳本手機打開百度分別輸出請求鏈接請求頭 cookies host 請求方法端口協議

同時還可以對任意屬性進行修改就像最初修改Headers一樣直接賦值

示例：

def request(flow):
　　url = 'https://httpbin.org/get'
　　flow.request.url = url

更多屬性參考 http://docs.mitmproxy.org/en/latest/scripting/api.html

響應

response() 方法

示例：

from mitmproxy import ctx

def response(flow):
　　response = flow.response
　　info = ctx.log.info
　　info(str(response.status_code))
　　info(str(response.headers))
　　info(str(response.cookies))
　　info(str(response.text))

打印出響應狀態碼 headers cookies 網頁源代碼等

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python3編寫網絡爬蟲14-動態渲染頁面爬取 python3爬蟲爬取動漫視頻 python網絡爬蟲爬取vip電影 Python3網絡爬蟲：requests爬取動態網頁內容 Python3網絡爬蟲(七)：使用Beautiful Soup爬取小說《python3網絡爬蟲開發實戰》--動態渲染頁面爬取爬蟲之 App 爬取【Python網絡爬蟲三】爬取網頁新聞 Python3網絡爬蟲--爬取有聲小說（附源碼） python3爬蟲-使用requests爬取起點小說