php爬取微信文章內容
在做官網升級的時遇到新的需求,需要將公司公眾號文章顯示在官網的文章模塊下。但存在的問題是:微信文章的鏈接會失效,並且需要對文章部分內容做修改,同時要減少微信運營人員的工作量,避免重新上傳素材編輯排版等,所以決定根據鏈接爬取文章的富文本內容。
實現的方式是基於http://weixin.sogou.com/,在這個站點可以搜索公眾號,以及公眾號的文章,這樣就可以使用curl模擬請求,獲取文章信息,然后正則處理,獲取html文本,無圖文本,以及文章的標題、封面、作者等基本信息。
同時一個問題是,微信文章的圖片都是防盜鏈的,所以直接使用它的url是無法正常顯示的,這樣在正則處理文章內容時,需要對img標簽的src進行處理,處理的方法是模擬來源為www.qq.com,需要自己的服務器的支持。實現方式查看php解決微信文章圖片防盜鏈
基於weixin.sogou.com,其實還可以做到更多,如輸入公眾號,搜索公眾號的最新文章,自動按時爬取等功能,但目前的需求問題已經解決了,所以目前只是一個簡單的版本。
此外,本PHP版本是參考了一個Python版本爬取微信文章的思路,但地址忘記了,感謝那位兄弟。
示例代碼放到了GitHub
