發現兩款不錯的爬蟲框架,極力推薦下:
phpspider
一款優秀的PHP開發蜘蛛爬蟲
官方下載地址:https://github.com/owner888/phpspider
官方開發手冊:https://doc.phpspider.org/
QueryList
使用jQuery選擇器來做采集,告別復雜的正則表達式;QueryList具有jQuery一樣的DOM操作能力、Http網絡操作能力、亂碼解決能力、內容過濾能力以及可擴展能力;
可以輕松實現諸如:模擬登陸、偽造瀏覽器、HTTP代理等意復雜的網絡請求;擁有豐富的插件,支持多線程采集以及使用PhantomJS采集JavaScript動態渲染的頁面。
官方下載地址:https://github.com/jae-jae/QueryList
官方開發手冊:https://doc.querylist.cc/