前言
利用Python爬取並簡單分析拉勾網招聘數據,我們一起來看看吧。
開發工具
Python版本:3.6.4
相關模塊:
requests模塊;
pyecharts模塊;
以及一些Python自帶的模塊。
環境搭建
安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。
數據爬取
爬取目標為一些大城市的招聘信息:
發現通過一個post請求就可以獲取數據了:
需要的參數為:
pn代表頁碼,kd代表關鍵詞。
寫了個最簡單版本的爬蟲來爬取數據,就沒有代理池和cookie池,所以直接設置了一個比較長的延時來防止被封,因為拉勾網的反爬機制好像還是有點好的:
這里爬取的是上海、北京、廣州、南京、深圳、杭州、成都、武漢和天津這幾個城市的招聘信息,崗位搜索的關鍵詞設置為了python。
該部分代碼使用方式截圖:
數據分析
首先,讓我們先來看看python相關的崗位的薪資一般有多少吧:
最少是9.4k(均值),最多則是17.6k(均值),詭異,北京和天津不是挺近的嘛~
再來看看崗位的學歷要求唄(我爬取的城市的招聘數據綜合起來的結果,下同):
所以,一般本科畢業就闊以了~
然后我們來看看工作性質唄:
OK,再來看看招聘Python相關崗位的公司的規模一般有多大吧:
所以,還行吧~
接下來再來看看哪些行業招會python的?統計結果如下圖所示:
每個領域看上去都需要python嘛~
爬的數據不多,就分析到這里吧~