2020年3月17號更新,目前程序一直穩定運行....
記錄一下今天的成果,確實可以抓取到,配置完成之后1分鍾可以抓取100+(后來優化了一下,可以達到300左右)片吧,我沒有用多進程,如果是多進程的話,效率會翻倍的增加。
抓取思路
網上的方法大約有三種
第一:通過搜狗微信 搜索入口 ,模擬搜索抓取,效率比較低,而且還有驗證碼,反爬蟲機制;建議放棄。
第二:通過抓包工具截取htts請求的數據包,意思就是使用pc端微信登錄,監聽公眾號的推送消息,每當監聽到推送之后就把數據獲取下來,缺點是無法獲取以前的歷史記錄
第三:通過微信公眾號的后台獲取cookie和token來抓取;缺點是需要注冊一個公眾號,而且token有過期時間
以上幾種是網友提供的思路,都可以實現,但同時也都有缺點。
以下是我用第三種方法實現的;
使用php,node.js都可以抓取;
1.注冊微信公眾,登錄之后選擇新建素材,然后點擊超鏈接,搜索任意公眾號,保存該公眾號的fakeid,同時保存cookie和token,
2.在https請求中 設置header的cookie為第1步保存的cookie,參數是token,發送https請求,你會驚奇的發現已經拿下某公眾號的歷史記錄 (默認40條);
3.然后根據列表里面的內容鏈接地址,再獲取具體的網頁內容;
4.把獲取的內容存到本地的數據庫中
總結:以上思路僅供參考,具體實現需要靠自己;
提示:源碼收費,還請諒解;
------------------------------------------------------------------------------
鑒於有人咨詢了一下抓取程序價格,我在這里聲明一下:
抓取的功能沒有你想的那么智能
1.需要指定公眾號(可以指定多個,沒有上限)
2.需要設置token以及對應的cookie參數(這兩個參數登錄微信公眾號就可以獲取,非常簡單);
3.抓取速度,關於這個問題,不敢說過快,一天爬取5000(20000條也爬過)條還是很輕松的(什么?5000-條數據也叫爬蟲,你tmd傻X吧,客觀先別着急,為啥爬取的少?因為爬取太快會觸發微信的 頻率控制(一旦觸發,24小時才解封),你等着吧)。
看到這里,你還沒有放棄,那么看來你是真想要了。
可以購買源碼,因為源碼是我自己開發方便我自己閱讀用的,一般要買源碼的都需要做一些修改和開發,視情況而定