原文:圈外的微信群,這里只是作為筆記。
一、背景
1、目標
對拉勾網的【數據分析崗位】上海地區企業分析,需要知道招聘【數據分析崗位】的上海公司所屬【行業類型】
2、大致流程
- 后羿采集器抓取數據
- Excel對數據分列
- Excel建立數據透視表,計算值
二、數據采集
1、准備工具
-
目標數據:https://www.lagou.com/jobs/list_數據分析師/p-city_3?&cl=false&fromSearch=true&labelWords=&suginput=
-
爬蟲工具:后羿采集器
2、選擇模式,打開后羿采集器,選擇右邊的智能采集模式
,點擊開始采集
,
3、填入數據地址,填入准備好的數據地址,點擊開始創建
4、去頁面廣告
-
點擊按鈕
預執行操作
-
選擇底部左邊按鈕
點擊
-
再點擊頁面的按鈕
給也不要
-
選擇左上角的操作提示中的
點擊一下
5、清空所有數據,自定義數據列。
- 點擊
清空所有
,即可清空所有字段。 - 點擊
添加字段
,然后鼠標移動到需要抓取的數據那兒即可添加字段。
6、開始采集,保存,然后導出Excel
三、數據分析
1、數據拆分,打開Excel -> 選中目標列 -> 數據 -> 分列 -> 下一步 -> 選擇需要的分隔符 -> 下一步 -> 完成
-
分隔符的設置
-
原始數據
-
處理后的數據
2、建立數據透視表,選擇目標列 -> 數據 -> 數據透視表 -> 確定
- 在
字段列表
,選中要顯示的字段 - 在
數據透視表區域
,把字段列表
的字段,拖入到數據透視表區域
的值
那個區域中