python爬蟲爬取微信公眾號歷史文章鏈接


一、突然想起之前公司讓爬取微信公眾號文章鏈接的需求,想再試一下之前的解決辦法是否行得通,可見還是能行得通,不然也不會寫這篇博客,哈哈哈,之前最初接觸爬公眾號文章的時候,用的是搜狗微信,在這個上面可以搜到相關的微信公眾號文章,但是這些鏈接是有時效性的,第二天鏈接就打不開了(不知道現在是多久),當然如果是要抓文章內容的,可以用這種方法,但是如果要抓文章的URL,那就不行了,只能另尋別的方法。

二、期間我試了網上的各種方法,比如微信公眾號發布平台,這個的cookie也是有時效性,具體是多久網上說多久的都有,當然這確實是一種方法,同時我自己也在尋找別的方法。
我的方法是使用fiddler抓包抓到pc端微信的公眾號歷史文章的URL,然后再瀏覽器打開,發現打不開,然后我就發現請求頭信息里還有一個referer(看下圖),抱着試試看的態度,發現可以用本地瀏覽器打開,而且是有數據的,那就好辦了啊,直接用selenium哐哐的爬,目前沒有發現啥限制。

三、唯一的是這個歷史文章的URL是有時效性的,在兩個半小時左右,還有一點需要注意,referer這個URL要去掉__biz=MjM5MzA1NzgyMA==后面的部分,如果不去掉,時效性只有半個小時,親測,biz這個參數就不多說了吧,大家都知道是啥。雖然歷史文章的URL有時效性,但是單個文章的URL是永久有效的啊,這就達到了公司需求,文章的URL也可以去除掉一些沒用的后綴,具體你們可以自己去看。

好了,關於微信公眾號文章的爬取,今天的分享就到這了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM