主要思路
目的:
根據輸入的城市名,爬取該城市美團美食板塊所有商家的數據。數據包括:
店名、評分、評論數量、均價、地址
,
並將這些數據存入Excel中。
最后嘗試對爬取到的數據做一個簡單的分析。
克服反爬蟲:
爬取每頁數據后,隨機停止一段時間后再爬下一頁;
每頁使用不同的cookie值。
具體原理:
Chrome打開后看了下xhr。。。
發現直接有接口可以用。
詳細的實現過程在個人簡介中獲取源代碼
。
開發工具
Python版本:3.5.4
相關模塊:
requests模塊;
win_unicode_console模塊;
openpyxl模塊;
以及一些Python自帶的模塊。
環境搭建
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
使用演示
在cmd窗口運行MT_Cate_Spider.py文件即可。
簡單分析
其實在碼字的時候我臨時加的這個部分,原因很簡單,我想強調爬蟲和數據分析結合的重要性。
利用Excel的數據分析功能簡單分析一波吧~~~
用的上海地區的數據。
首先當然是按照評分排個序,然后做成柱狀圖:
然后是評論數量排個序,做成柱狀圖:
然后再做點其他有趣的圖案: