八爪魚數據抓取,智聯招聘為例


一.八爪魚抓取智聯招聘信息

1.1 打開八爪魚采集器==》選擇快速開始==>新建任務(高級模式)

 

 

1.2點擊下一步 基本流程如下點擊下一步

 

1.3啟動單機采集等待數據抓取完畢

 

1.4導出數據 csv格式

 

 

二.將信息導入到虛擬機

2.1 因訪問外網需要建立socroueCRT映射

 

2.2使用Fz將數據導入虛擬機

 

2.3文件格式修改

 iconv -f encoding -t encoding inputfile 比如將一個UTF-8 編碼的文件轉換成GBK編碼

  iconv -f GBK -t UTF-8 file1 -o file2

 

 

三.將信息從虛擬機導入到hdfs

3.1 使用命令hadoop fs -put 文件名 路徑

Hadoop fs -put /文件路徑  /要導入的路徑

 

四.hdfs的csv文件導入到hive表中

4.1 創建表

 

4.2將數據導入

Load data input ‘/hdfs的路徑’ into table 數據庫名.表名;

 

五.hive表換成hive中的事物表

5.1創建事物表

 

 

5.2將引號去除

 

5.3將工資平均導入新表

 

 

 

六.salary的取值區間轉換成平均值

 

七.分析工資最高的前三名職位

 

八.分析需求量最高的大數據職位前三名

 

九.分析需求量最高的三大行業

 

十.分析結果通過zeppelin展示

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM