批量抓取微信公眾號的文章

本文轉載自查看原文 2019-05-18 13:55 3324 php

2020年3月17號更新，目前程序一直穩定運行....

記錄一下今天的成果，確實可以抓取到，配置完成之后1分鍾可以抓取100+（后來優化了一下，可以達到300左右）片吧，我沒有用多進程，如果是多進程的話，效率會翻倍的增加。

抓取思路

　　網上的方法大約有三種

　　第一：通過搜狗微信搜索入口，模擬搜索抓取，效率比較低，而且還有驗證碼，反爬蟲機制；建議放棄。

　　第二：通過抓包工具截取htts請求的數據包，意思就是使用pc端微信登錄，監聽公眾號的推送消息，每當監聽到推送之后就把數據獲取下來，缺點是無法獲取以前的歷史記錄

　　第三：通過微信公眾號的后台獲取cookie和token來抓取；缺點是需要注冊一個公眾號，而且token有過期時間

以上幾種是網友提供的思路，都可以實現，但同時也都有缺點。

以下是我用第三種方法實現的；

使用php,node.js都可以抓取；

　　1.注冊微信公眾，登錄之后選擇新建素材，然后點擊超鏈接，搜索任意公眾號，保存該公眾號的fakeid，同時保存cookie和token，

　　2.在https請求中設置header的cookie為第1步保存的cookie，參數是token，發送https請求，你會驚奇的發現已經拿下某公眾號的歷史記錄（默認40條）；

　　3.然后根據列表里面的內容鏈接地址，再獲取具體的網頁內容；

　　4.把獲取的內容存到本地的數據庫中

總結：以上思路僅供參考，具體實現需要靠自己；

提示：源碼收費，還請諒解；

------------------------------------------------------------------------------

鑒於有人咨詢了一下抓取程序價格，我在這里聲明一下：

抓取的功能沒有你想的那么智能

1.需要指定公眾號（可以指定多個，沒有上限）
2.需要設置token以及對應的cookie參數(這兩個參數登錄微信公眾號就可以獲取，非常簡單)；

3.抓取速度，關於這個問題，不敢說過快，一天爬取5000（20000條也爬過）條還是很輕松的（什么？5000-條數據也叫爬蟲，你tmd傻X吧，客觀先別着急，為啥爬取的少？因為爬取太快會觸發微信的頻率控制（一旦觸發，24小時才解封），你等着吧）。

看到這里，你還沒有放棄，那么看來你是真想要了。

可以購買源碼，因為源碼是我自己開發方便我自己閱讀用的，一般要買源碼的都需要做一些修改和開發，視情況而定

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java+fiddler4 實現微信公眾號文章抓取微信公眾號文章爬蟲抓取實現原理！微信公眾號文章的爬蟲系統微信公眾號文章的爬蟲系統 python_爬蟲_微信公眾號抓取向微信公眾號文章添加通知文件 Python 微信公眾號文章爬取 python 爬取微信公眾號歷史文章微信公眾號文章搬遷完成！保存微信公眾號付費文章至本地的方法