Pig的安裝和簡單使用

本文轉載自查看原文 2017-04-08 12:00 1733 Pig

1.Pig是基於hadoop的一個數據處理的框架。
　　MapReduce是使用java進行開發的，Pig有一套自己的數據處理語言，Pig的數據處理過程要轉化為MR來運行。
2.Pig的數據處理語言是數據流方式的，類似於初中做的數學題。
3.Pig基本數據類型：int、long、float、double、chararray、bytearray
復合數據類型：Map、Tuple、Bag
Bag的類型如{('age',31),('name','張三')}

4.如何安裝Pig(在hadoop0上安裝)
4.1 把pig-0.11.1.tar.gz復制到/usr/local下
4.2 使用命令tar -zxvf pig-0.11.1.tar.gz解壓縮
4.3 使用命令mv pig-0.11.1 pig 進行重命名
4.4 編輯文件vi /etc/profile 設置環境變量
　　　　export PIG_HOME=/usr/local/pig
　　　　export PATH =......:$PIG_HOME/bin....
　　　　保存，然后執行source /etc/profile
4.5 編輯文件$PIG_HOME/conf/pig.properties，增加兩行如下內容
　　　　fs.default.name=hdfs://hadoop0:9000 (見/usr/local/hadoop/conf/core-site.xml)
　　　　mapred.job.tracker=hadoop0:9001 (見/usr/local/hadoop/conf/mapred-site.xml)

5.對wlan數據(手機上網日志)如何使用pig進行分析處理
5.1 把待處理的數據上傳到HDFS中
　　　　hadoop fs -put HTTP.dat /wlan
5.2 把HDFS中的數據轉換為pig可以處理的模式（執行pig命令，就進入到pig命令行模式下）
　　　　A = LOAD '/wlan' AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long, t9:long, t10:chararray);
　　　　DUMP A; ----查看

5.3 把里面的有用的字段抽取出來
　　　　B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;
　　　　DUMP B;

5.4 分組數據
　　　　C = GROUP B BY msisdn;
　　　　DUMP C;

5.5 流量匯總
　　　　D = FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9); -----group代表第一列手機號碼的字段(匯總出同一個手機號碼的流量)
　　　　DUMP D;

5.6 存儲到HDFS中
　　　　STORE D INTO '/wlan_result';
　　　　查看HDFS：
　　　　　　hadoop fs -lsr /
　　　　　　hadoop fs -text /wlan_result/part-r-*

還可以排序：
　　E = ORDER D BY group;
　　DUMP E;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop Pig簡介、安裝、試用 Hadoop:pig 安裝及入門示例 pig安裝配置及實例 spring cloud微服務pig的安裝部署 pig4cloud中feign使用案例 Hadoop入門進階課程7--Pig介紹、安裝與應用案例 Minikube 安裝和簡單使用 MariaDB安裝及簡單使用 APISIX的安裝和簡單使用 nltk的安裝和簡單使用