App爬蟲神器mitmproxy和mitmdump的使用


原文

 

mitmproxy是一個支持HTTP和HTTPS的抓包程序,有類似Fiddler、Charles的功能,只不過它是一個控制台的形式操作。

mitmproxy還有兩個關聯組件。一個是mitmdump,它是mitmproxy的命令行接口,利用它我們可以對接Python腳本,用Python實現監聽后的處理。另一個是mitmweb,它是一個Web程序,通過它我們可以清楚觀察mitmproxy捕獲的請求。

下面我們來了解它們的用法。

一、准備工作

請確保已經正確安裝好了mitmproxy,並且手機和PC處於同一個局域網下,同時配置好了mitmproxy的CA證書。

二、mitmproxy的功能

mitmproxy有如下幾項功能。

d47e62d2b349aca45e42305ed6714efbe5ed61d9攔截HTTP和HTTPS請求和響應。
d47e62d2b349aca45e42305ed6714efbe5ed61d9保存HTTP會話並進行分析。
d47e62d2b349aca45e42305ed6714efbe5ed61d9模擬客戶端發起請求,模擬服務端返回響應。
d47e62d2b349aca45e42305ed6714efbe5ed61d9利用反向代理將流量轉發給指定的服務器。
d47e62d2b349aca45e42305ed6714efbe5ed61d9支持Mac和Linux上的透明代理。

d47e62d2b349aca45e42305ed6714efbe5ed61d9利用Python對HTTP請求和響應進行實時處理。

三、抓包原理

和Charles一樣,mitmproxy運行於自己的PC上,mitmproxy會在PC的8080端口運行,然后開啟一個代理服務,這個服務實際上是一個HTTP/HTTPS的代理。

手機和PC在同一個局域網內,設置代理為mitmproxy的代理地址,這樣手機在訪問互聯網的時候流量數據包就會流經mitmproxy,mitmproxy再去轉發這些數據包到真實的服務器,服務器返回數據包時再由mitmproxy轉發回手機,這樣mitmproxy就相當於起了中間人的作用,抓取到所有Request和Response,另外這個過程還可以對接mitmdump,抓取到的Request和Response的具體內容都可以直接用Python來處理,比如得到Response之后我們可以直接進行解析,然后存入數據庫,這樣就完成了數據的解析和存儲過程。

四、設置代理

首先,我們需要運行mitmproxy,命令如下所示:

啟動mitmproxy的命令如下:

 

mitmproxy

 

之后會在8080端口上運行一個代理服務,如下圖所示。

f3334f432fb19ac2df5683edf0235bbf903692ab

右下角會出現當前正在監聽的端口。

或者啟動mitmdump,它也會監聽8080端口,命令如下所示:

 

mitmdump

 

運行結果如下圖所示。

ce5fee92a981bdfd1bc47b8f95d2763402c12f8b

將手機和PC連接在同一局域網下,設置代理為當前代理。首先看看PC的當前局域網IP。

Windows上的命令如下所示:

 

ipconfig

 

Linux和Mac上的命令如下所示:

 

ifconfig

 

輸出結果如下圖所示。

b8f5f9dea81cb653a6b2c7bc9b088b391a296119

一般類似10.*.*.*或172.16.*.*或192.168.1.*這樣的IP就是當前PC的局域網IP,例如此圖中PC的IP為192.168.1.28,手機代理設置類似如下圖所示。

3086a28d20e1fb6797bf5966399b8f3f49e3c6c3

這樣我們就配置好了mitmproxy的的代理。

五、mitmproxy的使用

確保mitmproxy正常運行,並且手機和PC處於同一個局域網內,設置了mitmproxy的代理,具體的配置方法可以參考官方文檔。

運行mitmproxy,命令如下所示:

 

mitmproxy

 

設置成功之后,我們只需要在手機瀏覽器上訪問任意的網頁或瀏覽任意的App即可。例如在手機上打開百度,mitmproxy頁面便會呈現出手機上的所有請求,如下圖所示。

1ebc2419cde41bf5f92fd621f34efcd8998305ad

這就相當於之前我們在瀏覽器開發者工具監聽到的瀏覽器請求,在這里我們借助於mitmproxy完成。Charles完全也可以做到。

這里是剛才手機打開百度頁面時的所有請求列表,左下角顯示的2/38代表一共發生了38個請求,當前箭頭所指的是第二個請求。

每個請求開頭都有一個GET或POST,這是各個請求的請求方式。緊接的是請求的URL。第二行開頭的數字就是請求對應的響應狀態碼,后面是響應內容的類型,如text/html代表網頁文檔、image/gif代表圖片。再往后是響應體的大小和響應的時間。

當前呈現了所有請求和響應的概覽,我們可以通過這個頁面觀察到所有的請求。

如果想查看某個請求的詳情,我們可以敲擊回車,進入請求的詳情頁面,如下圖所示。

d06e2a2c71b273cd4d3e38d42bd717a67095e9e6

可以看到Headers的詳細信息,如Host、Cookies、User-Agent等。

最上方是一個Request、Response、Detail的列表,當前處在Request這個選項上。這時我們再點擊TAB鍵,即可查看這個請求對應的響應詳情,如下圖所示。

48363d4149d23f970b2f9e6493d99f5d3a3f02f5

最上面是響應頭的信息,下拉之后我們可以看到響應體的信息。針對當前請求,響應體就是網頁的源代碼。

這時再敲擊TAB鍵,切換到最后一個選項卡Detail,即可看到當前請求的詳細信息,如服務器的IP和端口、HTTP協議版本、客戶端的IP和端口等,如下圖所示。

af1a75f058f13fd3156b854c411b36c4098bb16f

mitmproxy還提供了命令行式的編輯功能,我們可以在此頁面中重新編輯請求。敲擊e鍵即可進入編輯功能,這時它會詢問你要編輯哪部分內容,如Cookies、Query、URL等,每個選項的第一個字母會高亮顯示。敲擊要編輯內容名稱的首字母即可進入該內容的編輯頁面,如敲擊m即可編輯請求的方式,敲擊q即可修改GET請求參數Query。

這時我們敲擊q,進入到編輯Query的頁面。由於沒有任何參數,我們可以敲擊a來增加一行,然后就可以輸入參數對應的Key和Value,如下圖所示。

cd4d8a1293ae51653621a6b651df3b07188bfd83

這里我們輸入Key為wd,Value為NBA。

然后再敲擊esc鍵和q鍵,返回之前的頁面,再敲擊e和p鍵修改Path。和上面一樣,敲擊a增加Path的內容,這時我們將Path修改為s,如下圖所示。

9aa39400de225baf610cd31d437ce6ea7a93e091

再敲擊esc和q鍵返回,這時我們可以看到最上面的請求鏈接變成了:https://www.baidu.com/s?wd=NBA。訪問這個頁面,可以看到百度搜索NBA關鍵詞的搜索結果,如下圖所示。

d11a5237cdefa4c5c4a9dacf7cf2b3683aa9b06c

敲擊a保存修改,敲擊r重新發起修改后的請求,即可看到上方請求方式前面多了一個回旋箭頭,這說明重新執行了修改后的請求。這時我們再觀察響應體內容,即可看到搜索NBA的頁面結果的源代碼,如下圖所示。

2f4872a01834059d40a0d894e90ae8ebd61eb88f

以上內容便是mitmproxy的簡單用法。利用mitmproxy,我們可以觀察到手機上的所有請求,還可以對請求進行修改並重新發起。

Fiddler、Charles也有這個功能,而且它們的圖形界面操作更加方便。那么mitmproxy的優勢何在?

mitmproxy的強大之處體現在它的另一個工具mitmdump,有了它我們可以直接對接Python對請求進行處理。下面我們來看看mitmdump的用法。

六、mitmdump的使用

mitmdump是mitmproxy的命令行接口,同時還可以對接Python對請求進行處理,這是相比Fiddler、Charles等工具更加方便的地方。有了它我們可以不用手動截獲和分析HTTP請求和響應,只需寫好請求和響應的處理邏輯即可。它還可以實現數據的解析、存儲等工作,這些過程都可以通過Python實現。

1. 實例引入

我們可以使用命令啟動mitmproxy,並把截獲的數據保存到文件中,命令如下所示:

 

mitmdump -w outfile

 

其中outfile的名稱任意,截獲的數據都會被保存到此文件中。

還可以指定一個腳本來處理截獲的數據,使用-s參數即可:

 

mitmdump -s script.py

 

這里指定了當前處理腳本為script.py,它需要放置在當前命令執行的目錄下。

我們可以在腳本里寫入如下的代碼:

 

def request(flow): flow.request.headers['User-Agent'] = 'MitmProxy' print(flow.request.headers)

 

我們定義了一個request()方法,參數為flow,它其實是一個HTTPFlow對象,通過request屬性即可獲取到當前請求對象。然后打印輸出了請求的請求頭,將請求頭的User-Agent修改成了MitmProxy。

運行之后我們在手機端訪問http://httpbin.org/get,可以看到如下情況發生。

手機端的頁面顯示如下圖所示。

4ff24751512c4f573dc51bb56a9d2abb2b7b70c3

PC端控制台輸出如下圖所示。

d64467a8757e55004e1980ddda741c1539bbbe6e

手機端返回結果的Headers實際上就是請求的Headers,User-Agent被修改成了mitmproxy。PC端控制台輸出了修改后的Headers內容,其User-Agent的內容正是mitmproxy。

所以,通過這三行代碼我們就可以完成對請求的改寫。print()方法輸出結果可以呈現在PC端控制台上,可以方便地進行調試。

2. 日志輸出

mitmdump提供了專門的日志輸出功能,可以設定不同級別以不同顏色輸出結果。我們把腳本修改成如下內容:

 

from mitmproxy import ctx def request(flow): flow.request.headers['User-Agent'] = 'MitmProxy' ctx.log.info(str(flow.request.headers)) ctx.log.warn(str(flow.request.headers)) ctx.log.error(str(flow.request.headers))

 

這里調用了ctx模塊,它有一個log功能,調用不同的輸出方法就可以輸出不同顏色的結果,以方便我們做調試。例如,info()方法輸出的內容是白色的,warn()方法輸出的內容是黃色的,error()方法輸出的內容是紅色的。運行結果如下圖所示。

eb001115a5a8f264e1985acf86db83bf3ea6d0da

不同的顏色對應不同級別的輸出,我們可以將不同的結果合理划分級別輸出,以更直觀方便地查看調試信息。

3. Request

最開始我們實現了request()方法並且對Headers進行了修改。下面我們來看看Request還有哪些常用的功能。我們先用一個實例來感受一下。

eb001115a5a8f264e1985acf86db83bf3ea6d0da

我們修改腳本,然后在手機上打開百度,即可看到PC端控制台輸出了一系列的請求,在這里我們找到第一個請求。控制台打印輸出了Request的一些常見屬性,如URL、Headers、Cookies、Host、Method、Scheme等。輸出結果如下圖所示。

e87ea7cd9bfca5dff24b5a60028824174d8cfecb

結果中分別輸出了請求鏈接、請求頭、請求Cookies、請求Host、請求方法、請求端口、請求協議這些內容。

同時我們還可以對任意屬性進行修改,就像最初修改Headers一樣,直接賦值即可。例如,這里將請求的URL修改一下,腳本修改如下所示:

 

def request(flow): url = 'https://httpbin.org/get' flow.request.url = url

 

手機端得到如下結果,如下圖所示。

a4f5ad57720f64a53aa7a6ce50bb4555d66af176

比較有意思的是,瀏覽器最上方還是呈現百度的URL,但是頁面已經變成了httpbin.org的頁面了。另外,Cookies明顯還是百度的Cookies。我們只是用簡單的腳本就成功把請求修改為其他的站點。通過這種方式修改和偽造請求就變得輕而易舉。

通過這個實例我們知道,有時候URL雖然是正確的,但是內容並非是正確的。我們需要進一步提高自己的安全防范意識。

Request還有很多屬性,在此不再一一列舉。更多屬性可以參考:http://docs.mitmproxy.org/en/latest/scripting/api.html。

只要我們了解了基本用法,會很容易地獲取和修改Reqeust的任意內容,比如可以用修改Cookies、添加代理等方式來規避反爬。

4. Response

對於爬蟲來說,我們更加關心的其實是Response的內容,因為Response Body才是爬取的結果。對於Response來說,mitmdump也提供了對應的處理接口,就是response()方法。下面我們用一個實例感受一下。

 

from mitmproxy import ctx def response(flow): response = flow.response info = ctx.log.info info(str(response.status_code)) info(str(response.headers)) info(str(response.cookies)) info(str(response.text))

 

將腳本修改為如上內容,然后手機訪問:http://httpbin.org/get。

這里打印輸出了Response的status_codeheaderscookiestext這幾個屬性,其中最主要的text屬性就是網頁的源代碼。

PC端控制台輸出如下圖所示。

30dbdcc2ef7bf0fda2ccdf006c9e2ef61e4d0074

控制台輸出了Response的狀態碼、響應頭、Cookies、響應體這幾部分內容。

我們可以通過response()方法獲取每個請求的響應內容。接下來再進行響應的信息提取和存儲,我們就可以成功完成爬取了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM