當我們還在發愁數據分析工作到底好不好找時,有沒有想過利用自己所學知識來找工作,既然是做數據分析的,那何不對采集一些招聘數據進行專業的分析分析,既把所學應用實踐,又給自己提供了一些數據參考,何樂而不為呢?
下面這些是從某招聘網站采集到的一些招聘信息
我們按照數據分析的流程一步一步給大家展開,看看如何做一次簡單的Excel分析
1.明確問題
1.哪些城市數據分析工作需求量更大一些?
2.數據分析工作在各大主要城市平均工資如何?(這里之所以要分城市,是因為城市之間的消費水平不一樣,若從整體去平均,容易受到異常值的影響,均值的意義就不大了)
3.數據分析的工作主要分布在哪些行業?
4.數據分析工作對於工作年限的要求有什么特點?
5.數據分析工作對於學歷要求有什么特點?
6.工作年限與薪資是否存在相關性
2.理解數據
該數據是網站采集下來的,總共6874條記錄,包含14個字段信息
3.數據清洗
往往原始數據無法直接拿來去做分析,因為有些數據不符合要求,因此需要做數據清洗,其實我們在實際的數據分析過程中有很大一部分工作是去做數據清洗,數據越規范,越完整,做出來的分析才越准確,越有意義。
數據清洗分為以下幾個步驟
- 選擇子集
該數據集所有列都可以參與分析
- 列名重命名
列名不需要重命名
- 刪除重復值
一個職位ID應該是唯一的,對職位ID進行刪除重復值的操作
- 缺失值處理
城市一列存在缺失值,需要補全,有幾種方式
1.如果數據量很少,直接刪除
2.根據其他列的內容,推斷出結果,人為填寫
3.如果是數值,則可根據實際情況采用均值填寫
城市為文本內容,因此可以根據公司名稱來判斷是哪個城市的
使用篩選功能,篩選出空值
- 一致化處理
公司所屬領域 一列存在1個或多個領域,中間逗號分隔,不利用后期分析,需要拆成多列
這里需要使用分列功能
- 1.選中公司所屬領域列
- 2.選擇【數據選項卡】--【分列】--【分隔符】
- 3.選擇【逗號】--【下一步】--【完成】
薪資一列是文本型,而且是區間形式,不太好利用后期的計算,因此需要一致化處理成數字格式的
這里需要用到Excel另一個非常強大的功能:函數
取薪資的最小值,思路:把第一個k前面的數字獲取
但是發現k有大寫,有小寫,需要把k全部替換成小寫
計算公式:=LEFT(N2,FIND("k",N2)-1)
最高薪資思路:找到-后面k前面的那串數字
計算公式:=MID(N2,FIND("-",N2)+1,(LEN(N2)-FIND("-",N2)-1))
最高薪水存在問題,有錯誤值
因為這些數據並沒有最大邊界,而是以多少k以上,面對這種情況,處理方案就是把最大值與最小值相等
最后,我們這里面都是公式,不利於后期的分析,需要把公式全部去掉
粘貼之后,發現全部變成了文本,需要轉為數值
使用AVERAGE函數計算平均薪水
如何函數不是特別熟練,也可以采用分列操作
因為分列會把原來的列給覆蓋,因此分列前如果要保留原列的話需要單獨復制一下
把所有的k替換成空,然后再對異常值進行處理,這里不詳細贅述
- 異常值處理
查看職位,看看有沒有不屬於數據分析崗位的
計算公式:=IF(COUNT(FIND({"數據運營","數據分析","分析師"},M2)),"是","否")
把否的數據視為異常值,刪除
因為是從網站上采集的數據,所以需要大量的清洗工作,清洗后數據剩余2293條,接下來終於可以對數據進行分析啦!
4.數據分析
根據上面提出的問題,我們一一來分析
1.哪些城市數據分析工作需求量更大一些,也就是對城市進行分組計數
這里需要用到數據透視表
這也是Excel非常強大的功能之一,主要是對數據進行分組,計算
我們可以看出,通過幾步操作就可以實現數據的匯總,比函數好用多了
從圖上可以看出,北京的崗位需求是最大的,其次是上海 深圳 杭州 和廣州,北上廣深作為超一線城市崗位需求量大是意料之中的,近幾年杭州的發展也是很客觀的,從崗位需求上可以看出已經擠進前5了。
2.數據分析工作在各大主要城市平均工資如何?(這里之所以要分城市,是因為城市之間的消費水平不一樣,若從整體去平均,容易受到異常值的影響,均值的意義就不大了)
這里分析平均工資采用平均薪資,從圖上可以看出,北京 深圳 上海 的平均工資還是很不錯的。
3.數據分析的工作主要分布在哪些行業?
從圖上可以看出,數據分析崗位主要集中到移動互聯網 金融 電子商務,我們也都知道互聯網對於數據分析的需求是最大的,所以大家選擇互聯網行業就業機會是挺多的。
4.數據分析工作對於工作年限的要求有什么特點?
可以看出3-5年和1-3年的職位要求是比較多的,說明數據分析的崗位還是需要有一定的工作經驗,但是也沒有要求特別資深的,1-3年對於畢業一年的大學生還是很友好的。
5.數據分析工作對於學歷要求有什么特點?
大部分要求是本科學歷,說明數據分析對於學歷要求也比較正常,沒有特別大的門檻
6.工作年限與薪資是否存在相關性
可以看出,工作年限與薪資呈正相關,從1-3年開始,隨着工作年限的增長,薪酬也在增長,特別是10年以上的,薪酬會非常可觀,說明如果在某個行業專注做數據分析,未來發展非常可觀。
5.數據可視化
這里先不做展示
總結:
從以上分析,得出以下結論
1 數據分析這一崗位,有大量的工作機會集中在北上廣深以及新一線城市,如果將來去這些城市找工作,可以提高求職成功的條件概率。
2 從待遇上看,數據分析師留在北京發展是個不錯的選擇,其次是深圳、上海,杭州。
3 數據分析對於學歷要求集中在本科,門檻不高,想轉行的可以考慮
4 數據分析的行業主要集中在互聯網
5 數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-5年。 對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有提升自己的能力,大概以后的競爭壓力會比較大。
6 隨着經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。