八爪鱼数据抓取,智联招聘为例


一.八爪鱼抓取智联招聘信息

1.1 打开八爪鱼采集器==》选择快速开始==>新建任务(高级模式)

 

 

1.2点击下一步 基本流程如下点击下一步

 

1.3启动单机采集等待数据抓取完毕

 

1.4导出数据 csv格式

 

 

二.将信息导入到虚拟机

2.1 因访问外网需要建立socroueCRT映射

 

2.2使用Fz将数据导入虚拟机

 

2.3文件格式修改

 iconv -f encoding -t encoding inputfile 比如将一个UTF-8 编码的文件转换成GBK编码

  iconv -f GBK -t UTF-8 file1 -o file2

 

 

三.将信息从虚拟机导入到hdfs

3.1 使用命令hadoop fs -put 文件名 路径

Hadoop fs -put /文件路径  /要导入的路径

 

四.hdfs的csv文件导入到hive表中

4.1 创建表

 

4.2将数据导入

Load data input ‘/hdfs的路径’ into table 数据库名.表名;

 

五.hive表换成hive中的事物表

5.1创建事物表

 

 

5.2将引号去除

 

5.3将工资平均导入新表

 

 

 

六.salary的取值区间转换成平均值

 

七.分析工资最高的前三名职位

 

八.分析需求量最高的大数据职位前三名

 

九.分析需求量最高的三大行业

 

十.分析结果通过zeppelin展示

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM