批量抓取微信公眾號的文章


2020年3月17號更新,目前程序一直穩定運行....

記錄一下今天的成果,確實可以抓取到,配置完成之后1分鍾可以抓取100+(后來優化了一下,可以達到300左右)片吧,我沒有用多進程,如果是多進程的話,效率會翻倍的增加。

抓取思路

  網上的方法大約有三種

  第一:通過搜狗微信  搜索入口 ,模擬搜索抓取,效率比較低,而且還有驗證碼,反爬蟲機制;建議放棄。

  第二:通過抓包工具截取htts請求的數據包,意思就是使用pc端微信登錄,監聽公眾號的推送消息,每當監聽到推送之后就把數據獲取下來,缺點是無法獲取以前的歷史記錄

  第三:通過微信公眾號的后台獲取cookie和token來抓取;缺點是需要注冊一個公眾號,而且token有過期時間

以上幾種是網友提供的思路,都可以實現,但同時也都有缺點。

以下是我用第三種方法實現的;

使用php,node.js都可以抓取;

  1.注冊微信公眾,登錄之后選擇新建素材,然后點擊超鏈接,搜索任意公眾號,保存該公眾號的fakeid,同時保存cookie和token,

  2.在https請求中 設置header的cookie為第1步保存的cookie,參數是token,發送https請求,你會驚奇的發現已經拿下某公眾號的歷史記錄 (默認40條);

  3.然后根據列表里面的內容鏈接地址,再獲取具體的網頁內容;

  4.把獲取的內容存到本地的數據庫中

總結:以上思路僅供參考,具體實現需要靠自己;

提示:源碼收費,還請諒解;

------------------------------------------------------------------------------

鑒於有人咨詢了一下抓取程序價格,我在這里聲明一下:

抓取的功能沒有你想的那么智能

1.需要指定公眾號(可以指定多個,沒有上限)
2.需要設置token以及對應的cookie參數(這兩個參數登錄微信公眾號就可以獲取,非常簡單);

3.抓取速度,關於這個問題,不敢說過快,一天爬取5000(20000條也爬過)條還是很輕松的(什么?5000-條數據也叫爬蟲,你tmd傻X吧,客觀先別着急,為啥爬取的少?因為爬取太快會觸發微信的 頻率控制(一旦觸發,24小時才解封),你等着吧)。

看到這里,你還沒有放棄,那么看來你是真想要了。

 

可以購買源碼,因為源碼是我自己開發方便我自己閱讀用的,一般要買源碼的都需要做一些修改和開發,視情況而定

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM