python爬蟲之快速對js內容進行破解(企名片)


目標url:https://www.qimingpian.com/finosda/project/pinvestment

js分析調試工具

對js進行分析調試的瀏覽器一定要用谷歌瀏覽器,用這個來調試測試真的很方便。首先我們按F12打開開發者工具,選到network選項並勾選preserve log 選項,然后輸入網址url來抓包。此時你會發現網頁源碼里沒有展示內容,在搜索也找不到我們看到的內容,那說明網頁內容是被加密處理了。

此時你可以一個個看每個包找找有什么可疑的內容,當然我們一般會先看xhr里的內容,一眼我們就發現里面都有encrypt_data這個數據,看着很像。

 

 

 

我們ctrlshiftf鍵搜索encrypt_data,找到第一個js里的encrypt_data內容,然后翻到下面return e.encrypt_data這一行來,打上斷點看看這會是什么內容。(一般我們搜索到return我們搜索的內容都要打上斷點來看看,八九不離十的)

打好斷點后我們刷新頁面來觀察,選中e.encrypt_data右鍵有個什么什么in console的,點這個會在下面出現我們選中的內容是什么。然后把后面的Object(d.a)(e.encrypt_data)用同樣的方法來試下,發現沒有網頁的內容啊。這里一定要注意我們打的斷點,在按一次,重復上面的步驟會發現,Object(d.a)(e.encrypt_data)這不就是我們要的內容嗎!e.encrypt_data這個就是我們xhr里面的那個encrypt_data,Object(d.a)是一個函數,就是這個函數對內容進行了加密,我們只要破解這個函數就OK了。

 

 選中Object(d.a)上面會出現它在哪里,點擊下跳轉過去。可以發現函數返回了一個json對象。這個返回結果包括1個s函數,參數里只有a.a.decode(t)這一個變量,其余都是常量

 

 

 所有我們用同樣的方法找到s函數的具體內容和a.a.decode()這個函數的具體內容。方法就是我們在return JSON.parse這里重新打斷點,點擊斷點的那個下一步,然后找上述函數的內容。

 

 s函數

 

 a.a.decode()

 

 

利用webstorm編輯器來運行上述函數進行調試

1 首先我們安裝Nodejs,去官網下載安裝,這是js環境。這個自己搜索個安裝教程吧,這里不過多介紹了。

2 WebStorm 安裝后激活,教程網上很多,大家自行搜索。它使用方式與 PyCharm 很類似。

我們把上述所需要的函數全部扣下來放到webstorm中,然后運行。注意有的函數里面會有沒有定義的參數,遇到這些我們在谷歌瀏覽器里一個個找就可以了,一般會有很多常量,直接替換掉。

然后我們調用上述方法可以看到能夠正常獲取數據了,這里js里的部分方法我重新命名了,注意下,下面是部分代碼片段。

 

 最后用 Python 去調用解密函數就行了,這里出於對網站保護就不直接貼完整代碼了,想要的可以后台私我。

 在python中運行

 

 

使用execjs執行一下,代碼:

import execjs
import json

encrypt_data = '**'

with open('test.js') as f:
    js_encrypt = f.read()

ctx = execjs.compile(js_encrypt)
result = ctx.call('result',encrypt_data)
print(result)
json_data = json.loads(result)
print(json_data)

來源:https://www.cnblogs.com/zrmw/archive/2019/12/23/12083549.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM