Pig的安裝和簡單使用


1.Pig是基於hadoop的一個數據處理的框架
  MapReduce是使用java進行開發的,Pig有一套自己的數據處理語言,Pig的數據處理過程要轉化為MR來運行。
2.Pig的數據處理語言是數據流方式的,類似於初中做的數學題。
3.Pig基本數據類型:int、long、float、double、chararray、bytearray
       復合數據類型:Map、Tuple、Bag
                                            Bag的類型如{('age',31),('name','張三')}

4.如何安裝Pig(在hadoop0上安裝)
4.1 把pig-0.11.1.tar.gz復制到/usr/local下
4.2 使用命令tar -zxvf pig-0.11.1.tar.gz解壓縮
4.3 使用命令mv pig-0.11.1 pig 進行重命名
4.4 編輯文件vi /etc/profile 設置環境變量
    export PIG_HOME=/usr/local/pig
    export PATH =......:$PIG_HOME/bin....
    保存,然后執行source /etc/profile
4.5 編輯文件$PIG_HOME/conf/pig.properties,增加兩行如下內容
    fs.default.name=hdfs://hadoop0:9000 (見/usr/local/hadoop/conf/core-site.xml)
    mapred.job.tracker=hadoop0:9001 (見/usr/local/hadoop/conf/mapred-site.xml)

5.對wlan數據(手機上網日志)如何使用pig進行分析處理
5.1 把待處理的數據上傳到HDFS中
    hadoop fs -put HTTP.dat /wlan
5.2 把HDFS中的數據轉換為pig可以處理的模式(執行pig命令,就進入到pig命令行模式下)
    A = LOAD '/wlan' AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long, t9:long, t10:chararray);
    DUMP A; ----查看

     

 


5.3 把里面的有用的字段抽取出來
    B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;
    DUMP B;

     

 


5.4 分組數據
    C = GROUP B BY msisdn;
    DUMP C;

    

 


5.5 流量匯總
    D = FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9); -----group代表第一列手機號碼的字段(匯總出同一個手機號碼的流量)
    DUMP D;

    

 


5.6 存儲到HDFS中
    STORE D INTO '/wlan_result';
    查看HDFS:
      hadoop fs -lsr /
      hadoop fs -text /wlan_result/part-r-*

      

 

還可以排序:
  E = ORDER D BY group;
  DUMP E;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM