前言
利用Python爬取並簡單分析A股公司數據。讓我們愉塊地開始吧~
開發工具
Python版本:3.6.4
相關模塊:
requests模塊;
bs4模塊;
lxml模塊;
pyecharts模塊;
wordcloud模塊;
jieba模塊;
以及一些Python自帶的模塊。
環境搭建
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
數據爬取
目標網站:
http://www.askci.com/reports/
需要爬取的數據如下圖所示:
直接借助BeautifulSoup提取的這些數據,簡單一些,源代碼如下:
完整源代碼詳見個人主頁或私信獲取相關文件中的Spider.py文件。
運行效果截圖如下:
All done~
數據分析
在數據爬取部分,我們共獲得了3573條A股公司數據,下面我們就來簡單地可視化分析一波吧~
首先讓我們來看看A股公司的區域分布吧:
其中A股公司超過三百家的省份有:
-
廣東
-
北京
-
浙江
-
江蘇
接下來再來看看A股公司的收入情況吧:
其中主營業業務收入TOP10為:
再來看看A股公司的員工數量唄:
再來看看A股公司的上市時間分布唄:
其中,2013年上市的公司數量最少(2個);2017年上市的公司數量最多(438個)。
OK,要不我們再來看看A股公司所在的行業類型占比TOP10吧:
就很真實。
最后,我們把A股公司主營業務畫成詞雲看看唄:
文章到這里就結束了,關注我每天分享Python數據爬蟲案例,下篇文章分享是Python簡單分析高考數據