一鍵備份公眾號的所有文章到PDF,再也不用擔心想看的文章被刪了


有的時候,我們會發現收藏的某個微信公眾號文章會被刪或者和諧了,尤其是對自己非常實用的文章,一定會后悔當初怎么沒有復制或者備份下來。

單篇的公眾號文章要備份,隨便百度一下就能找到非常多方法,這里就不多廢話了。

如果要備份某個公眾號的所有文章,這個就要費點功夫了。網上搜索了一下,免費付費的工具都有,評論效果也是不一而論,不好說。

其實原理比較說起來還是不難的,今天永恆君就來分享一下備份某個公眾號的所有文章的思路方法。

以公眾號永恆君的百寶箱為例了,原理是大致是這樣的:

  • 抓包抓取微信客戶端的接口

  • 使用Python請求微信接口獲取公眾號文章鏈接並下載

1、抓包抓取微信客戶端的接口

常見的抓包工具有Fiddler,charles等等,永恆君這里用的是charles。

使用之前需要先進行一系列的配置,安裝證書,添加域名和host。否則獲取不到https接口數據,顯示unknown。詳細的配置方法可參考這里

圖片

配置好后啟動,打開微信客戶端找到公眾號,進入文章列表可以看到發過的文章。

圖片

這樣可以抓取到公眾號文章接口數據了。

圖片

公眾號文章的接口地址如下:

/mp/profile_ext?action=getmsg&__biz=MzIzMTU2OTkwOQ==&f=json&offset=10&count=10&is_ok=1&scene=124&uin=MzY0MDY1OTU1&key=61633b3e6808122f2a8e656cab84fa561b091de04bff962f725a959bf7d4e91507cf2f369f5dd89c9346abc8a415882fc2a13b51777dc54fba05e79c2346af8c872d619e7b10b27d515745b96d3ddd0f5fb09083f3bba38b8814be5cd32ab159d4964f299b988d29e1fbbe15ae2aa9f3a572392a143c354ba86df0d29414a0ee

參數比較多,其中有用的參數為:

__biz 是用戶和公眾號之間的唯一id
uin是用戶的id,這個是不變的
key 是請求的秘鑰,一段時間就會失效
offset 是偏移量
count 是每次請求的條數

通過上面的請求,就可以獲取公眾號文章的信息了,包括文章標題titile、文章地址content_url、閱讀原文地址source_url、封面cover、作者author,抓取這些就行了。

2、使用Python請求微信接口獲取公眾號文章鏈接並下載

有了上面的接口參數,就可以開始用Python請求獲取文章信息了。

圖片

 

圖片

這里只抓取永恆君署名的原創文章,公眾號一共有大約230多篇原創,生成HTML文件3分鍾就全部下載下來了。

圖片

用瀏覽器打開就能看。

圖片

但是有個問題,html文件里面的圖片需要聯網才能進行查看

圖片

所以永恆君把html文章再用python導出成PDF文檔。

導出PDF用的工具是wkhtmltopdf,這里特別說一下,這個工具需要先下載安裝 wkhtmltopdf。

接着Python中安裝pdfkit庫,調用wkhtmltopdf就可以了。

因為需要聯網獲取圖片,因此生成PDF會比較慢,耐心等待幾十分鍾之后,PDF文件也全部生成了。

圖片

PDF也可以用瀏覽器直接打開,比如這篇 這個統計家庭人口的公式有點厲害了~~~

圖片

如果覺得PDF文件數量太多了,也可以借助pdf合並軟件,將所有的pdf合並成單獨的合集,目錄就以每個文件名命名,方便查找。

圖片

這樣就完美的把我公眾號的所有文章下載到本地了,有HTML和PDF格式。

圖片

以上獲取文章的代碼寫的很簡陋,還沒有做優化,不太方便分享出來,怕誤導大家。有需要的話可以聯系我幫忙下載公眾號文章。

 

歡迎交流!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM