一.八爪魚抓取智聯招聘信息
1.1 打開八爪魚采集器==》選擇快速開始==>新建任務(高級模式)

1.2點擊下一步 基本流程如下點擊下一步

1.3啟動單機采集等待數據抓取完畢

1.4導出數據 csv格式

二.將信息導入到虛擬機
2.1 因訪問外網需要建立socroueCRT映射

2.2使用Fz將數據導入虛擬機
2.3文件格式修改
iconv -f encoding -t encoding inputfile 比如將一個UTF-8 編碼的文件轉換成GBK編碼
iconv -f GBK -t UTF-8 file1 -o file2
三.將信息從虛擬機導入到hdfs
3.1 使用命令hadoop fs -put 文件名 路徑
Hadoop fs -put /文件路徑 /要導入的路徑
四.將hdfs的csv文件導入到hive表中
4.1 創建表

4.2將數據導入
Load data input ‘/hdfs的路徑’ into table 數據庫名.表名;
五.將hive表換成hive中的事物表
5.1創建事物表

5.2將引號去除

5.3將工資平均導入新表

六.將salary的取值區間轉換成平均值

七.分析工資最高的前三名職位

八.分析需求量最高的大數據職位前三名

九.分析需求量最高的三大行業

十.分析結果通過zeppelin展示


