數據分析行業招聘職位分析報告--基於拉勾網


項目背景

大數據時代的到來讓數據在公司決策上發揮了越來越大的作用,數據分析師也成為了各大企業的標配,那么各大企業又會願意花多少代價來為數據買單呢?本文將通過從拉勾網爬取到的職位信息來展現「數據分析」職位究竟「錢」景如何:

  • 哪些城市更需要數據分析人才,除了北上廣深還有沒有其他城市給我們驚喜;
  • 哪些行業更需要數據分析人才,薪資如何;
  • 目前數據分析職位要求的工作經驗和學歷是怎樣:
  • 我工作%n年了,該拿到多少工資才不至於拖后腿了。

使用工具

Python/Tableau

  • 數據獲取主要使用urllib/json包,具體可參見文章Python爬蟲拉勾網
  • 數據清洗處理使用了pandas包,可視化使用了seaborn包。

數據來源

本文使用數據全部來自於拉勾網,職位搜索關鍵詞「數據分析」,獲取時間2018/3/8,字段解釋如下:

字段 內容
city 城市
indusryField 行業
workYear 工作經驗
education 學歷要求
companySize 公司規模
salary 薪資
positionId 職位編號

項目內容

導入所需包

import pandas as pd
import seaborn as sns

主題/字體設置

  • 設置圖表主題;
  • 指定字體解決圖表中文顯示為方塊的問題。
sns.set_style('ticks',{'font.sans-serif':['simhei','Arial']})

數據清洗

  • 根據職位編號(positionId)進行去重,去重之后共計2298條招聘記錄;
  • 薪資(salary)字段格式為10K-20K,替換掉「k」然后根據「-」進行分列獲得薪資上限與下限,最后取平均值作為職位參考薪資;
  • 行業分類(industryField)包含大類和小類部分,根據「」,「」和空格分列取大類用於后期分析。
sns.set_style('ticks',{'font.sans-serif':['simhei','Arial']})
#中文顯示問題

df = pd.read_excel('~\LagouSpider.xls',encoding='utf-8')
#加載數據

df = df.drop_duplicates(['positionId'])
#根據positionId進行去重

df = df.reset_index(drop=True)  
#重置索引

df['salary'] = df['salary'].str.replace('k','')
df['salary'] = df['salary'].str.replace('K','')
#去掉大小寫k

df['salary'] = df['salary'].str.split('-')
#通過'-'完成分列

df['salary'] = (df['salary'].str[1].astype(int)+df['salary'].str[0].astype(int))/2
#取平均值作為參考薪資

df['industryField'] = df['industryField'].str.split(',| ',1).str[0]
df['industryField'] = df['industryField'].str.split(u'、',1).str[0]

哪個城市最需要數據分析師?

根據城市分類來看,北上廣深四城毫無意外念的領先,北京更是優勢巨大,這與很多互聯網以及金融企業選擇在北京作為總部相關,當然也可能與拉勾網本身就是北京的一家企業,在北京業務開展更廣有關系。
在二線城市中,杭州優勢明顯,「阿里巴巴」,「網易」加分不少,與廣州已經差距很小了。
成都目前在招崗位60個,與其他城市拉開差距,在常年以來「成都與武漢誰是中西部最強城市?」似乎可以加上1分。

sns.countplot(x = 'city' , data = df)

image.png

大公司OR小公司?

這個問題也是大多少求職者所考慮的問題,大公司更加穩定、制度健全,但是相比小公司可能晉升困難一些,從薪資整體水平來看,也可以看出,大公司更願意給出高工資,但同時我們也能看到,小公司同樣也能給出50K-100K這樣的薪資。
所以你是願意去大公司擰螺絲,還是去小公司造飛機,當然大部分時候擰螺絲還能賺的更多。

sns.boxplot(x = df['companySize'],y = df['salary'],
                order = [u'少於15人',u'15-50人',u'50-150人',u'150-500人',u'500-2000人',u'2000人以上'])

image.png

哪個城市薪資最高?

從各個城市薪資來看,北京依然遙遙領先,薪資中位數已逾20K,上海/深圳/杭州相差不大,都是15K左右的水平,當然如果對比一下上海/深圳的房價,杭州對於數據分析師來說似乎是個不錯的落戶選擇。廣州在薪資這階段掉隊明顯,與其他二線城市相當。

sns.boxplot(x = 'city',y = 'salary',data = df)

image.png

哪個行業最需要數據分析師?

從行業分布來看,移動互聯網占據了半壁江山,招聘職位數是金融行業3倍,電子商務行業的5倍,另外由於拉勾網本身就是一家專注於互聯網招聘的企業,這也讓移動互聯網在這份榜單上的優勢愈加明顯。
除了我們熟知的電子商務/金融行業,數據服務類公司也有較大的需求,數據服務會不會成為以后行業的一塊大餅呢?最近幾年大火的O2O也有較大的需求,去送個外賣也不錯~

sns.boxplot(x = 'salary',y = 'industryField',data = df)

image.png

數據分析在各行薪資是個什么水平?

各個行業薪資水平來看,金融和電子商務行業薪資中位數相差無幾,不過金融行業薪資整體薪資來看要高於電子商務,去金融行業求個職似乎還是門檻要高點。
移動互聯網行業整體薪資維持在11K-22K之間,中位數16K,要高於金融行業。其他行業的由於樣本量偏少,就不展開討論了。

sns.countplot(y = 'industryField',data = df)

image.png

如果我是本科/碩士學歷,我該去哪個城市?

在對各個學歷的需求上來看,要求為本科的基本符合整體趨勢,在2298個招聘職位中要求為本科的達到了1969個,看來本科已經成為了數據分析師的一個基本門檻。
在遍地211/985的北京,大專似乎很不值錢,在四個一線城市中,薪資為最低。
但我們看要求為碩士的,薪資領先的是廣州/深圳,我們都知道,相比北京/上海,廣州/深圳的高校資源相對匱乏,尤其是深圳,這樣的薪資也體現了廣州/深圳對於高學歷人才的需求,所以,如果你碩士畢業,想要更高的工資,廣州/深圳應該是不錯的選擇。

sns.factorplot(x="city", y = 'salary' , col="education",col_wrap=2,
                      data=df[df['education']!=u'博士'], kind="box",
                      size=4, aspect=1);

image.png

我工作%n年了,應該拿到多少薪資才不至於拖后腿了?

從工作年限來看,都是一個整體上升趨勢,3-5年會有一個較大的漲幅,5-10年工作經驗的工資基本維持在20K-30K之間,深圳一家公司開出了60K-100K的工資,羡慕不已,傳送門

sns.factorplot(x="workYear", y = 'salary' , col="city",col_wrap=2,
                       data=df.loc[df['city'].isin([u'北京',u'上海',u'廣州',u'深圳',u'杭州',u'成都'])], 
                       order = [u'應屆畢業生',u'1年以下',u'1-3年',u'3-5年',u'5-10年',u'10年以上',u'不限'],
                       kind="box",size=4, aspect=1.3)

image.png

總結

  • 數據分析整個行業薪資普遍不低,而且上升空間也是足夠的,年入百萬也不是痴人說夢;
  • 城市分部來看,北上深優勢明顯,無論是從薪資還是機會都優於其他城市, 由於「阿里」、「網易」的存在,杭州也有不錯表現,然后廣州掉隊明顯;
  • 公司規模大小與薪資成正比,越大的公司給出的工資也更高;
  • 學歷要求來看,本科學歷是基本,碩士學歷在廣州/深圳更容易拿到高工資;
  • 工作年限上,從業3年之后會有一個較大漲幅。

寫在最后

這篇文章算是對數據分析行業的一次簡單的概述,也算是自己第一次完成了「數據獲取-清洗-分析」的一整套流程,對於求職者或者想踏入數據分析行業的人來說,可以當作參考,希望能有一點幫助。
當然還有很多需要完善和改進的地方:

  • 樣本量偏少而且偏向嚴重,少了點說服力;
  • 只進行了簡單的描述性分析,沒有更深入的探索;
  • 少了職位描述及職位要求,本來想做的詞雲也夭折了。

繼續努力~

最后也祝各位早日拿到高工資~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM