一.八爪魚抓取智聯招聘信息
1.1 打開八爪魚采集器==》選擇快速開始==>新建任務(高級模式)
1.2點擊下一步 基本流程如下點擊下一步
1.3啟動單機采集等待數據抓取完畢
1.4導出數據 csv格式
二.將信息導入到虛擬機
2.1 因訪問外網需要建立socroueCRT映射
2.2使用Fz將數據導入虛擬機
2.3文件格式修改
iconv -f encoding -t encoding inputfile 比如將一個UTF-8 編碼的文件轉換成GBK編碼
iconv -f GBK -t UTF-8 file1 -o file2
三.將信息從虛擬機導入到hdfs
3.1 使用命令hadoop fs -put 文件名 路徑
Hadoop fs -put /文件路徑 /要導入的路徑
四.將hdfs的csv文件導入到hive表中
4.1 創建表
4.2將數據導入
Load data input ‘/hdfs的路徑’ into table 數據庫名.表名;
五.將hive表換成hive中的事物表
5.1創建事物表
5.2將引號去除
5.3將工資平均導入新表
六.將salary的取值區間轉換成平均值
七.分析工資最高的前三名職位
八.分析需求量最高的大數據職位前三名
九.分析需求量最高的三大行業
十.分析結果通過zeppelin展示