Hadoop數據分析平台項目實戰(基於CDH版本集群部署與安裝)

本文轉載自查看原文 2018-04-07 17:48 2429 Hadoop

1、Hadoop的主要應用場景：
　　a、數據分析平台。
　　b、推薦系統。
　　c、業務系統的底層存儲系統。
　　d、業務監控系統。

2、開發環境：Linux集群(Centos64位)+Window開發模式(window10,64位操作系統)。
　使用技術：hadoop,hbase,hive,flume,oozie,sqoop,nginx,tomcat,spring,mybatis,springmvc,mysql等等。Hdfs為海量的數據提供存儲，MapReduce為海量的數據提供計算。
此項目使用CDH(Cloudera Distribution Hadoop)版本，是Cloudera公司對其商業化改進和更新，CDH官網:http://cloudera.com
3、開發版本：

　　a、hadoop2.5.0-cdh5.3.6版本；

　　(之前cdh版本下載地址:http://archive.cloudera.com/cdh5/cdh/5/或者http://archive.cloudera.com/cdh4/cdh/4/)，cdh版本的文檔：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.6/

　　如果是在apache的官網下載之前的版本，地址如下所示：http://archive.apache.org/dist/hadoop/common/,文檔查看如：http://hadoop.apache.org/docs/

　　b、hbase-0.98.6-cdh5.3.6版本。

　　c、zookeeper-3.4.5-cdh5.3.6版本。

4、Hadoop集群分布式(完全分布式模式)環境搭建:

安裝步驟:
    a、創建用戶，使用hadoop用戶，注意自己配置好自己的網絡，這點很重要。
        步驟(注意root用戶密碼):
            1)、使用useradd hadoop添加用戶。
            2)、使用passwd hadoop設置用戶密碼，密碼為hadoop;
            3)、給用戶賦予使用sudo命令的權限。
            4)、chmod u+w /etc/sudoers。
            5)、vim /etc/sudoers。由於root用戶對此文件也沒有修改權限，所以先賦予權限，修改完畢再刪除權限。
            6)、在root ALL=(ALL)ALL下面加上一行如下所示:
                hadoop ALL=(ALL)ALL。注意，分隔的是制表符。
            7)、chmod u-w /etc/sudoers。
    b、修改主機名以及ssh免密碼登陸。
        注意:由於以后操作都是使用hadoop用戶，所以必須使用hadoop用戶登陸進行免密碼配置，但是使用root還不是免密碼登陸的。
        步驟(使用hadoop用戶登陸):
            1)、使用sudo hostname slaver1修改主機名，當前生效，重啟后失效。
            2)、使用sudo vim /etc/sysconfig/network修改主機名，重啟生效。
            3)、在sudo vim /etc/hosts文件中添加主機名稱對應的ip地址。
                注意，將其他集群的主機名稱和對應的Ip地址都添加到三台機器，不然無法ping通。
                192.168.19.131 slaver1
                192.168.19.132 slaver2
                192.168.19.133 slaver3
            4)、使用ssh-keygen -t rsa生成ssh密鑰。
                注意:普通用戶生成的密鑰對是在~/.ssh目錄下面,root用戶是在/root/.ssh目錄下面，一定區分清楚。
            5)、進入.ssh文件夾，創建authorized_keys文件，並且將id_rsa.pub的內容添加到文件中去，修改文件權限為600(必須)
                注意:普通用戶是在~/.ssh目錄下。root用戶是在/root/.ssh目錄下面。
                [hadoop@slaver1 .ssh]$ scp authorized_keys slaver2:~/.ssh/
                [hadoop@slaver1 .ssh]$ scp authorized_keys slaver3:~/.ssh/
            6)、ssh slaver1驗證是否配置免密碼登陸成功。
                ssh slaver2
                ssh slaver3
    c、jdk的安裝。
        1)、復制jdk的tar壓縮包到/home/hadoop/package文件夾中。
        2)、解壓縮操作：
            [hadoop@slaver1 package]$ tar -zxvf jdk-7u79-linux-x64.tar.gz -C /home/hadoop/soft/
        3)、創建軟連接(可創建或者不創建，創建軟連接，方便記憶)：
            [hadoop@slaver1 package]$ sudo ln -s /home/hadoop/soft/jdk1.7.0_79/ /usr/local/jdk
        4)、配置相關的環境變量:
            針對用戶生效:[hadoop@slaver1 package]$ vim ~/.bash_profile
            全局生效(此處使用這個):[hadoop@slaver1 package]$ sudo vim /etc/profile
                在文件最下面添加如下所示內容:
                export JAVA_HOME=/home/hadoop/soft/jdk1.7.0_79
                export PATH=$PATH:$JAVA_HOME/bin
        5)、保存文件，使環境變量生效:
            [hadoop@slaver1 package]$ source /etc/profile
        6)、驗證jdk是否安裝成功:
            [hadoop@slaver1 package]$ java
            [hadoop@slaver1 package]$ javac
            [hadoop@slaver1 package]$ java -version
            [hadoop@slaver1 package]$ javac -version
    d、hadoop的安裝。
        步驟:
            1)、下載hadoop安裝包並復制到/home/hadoop/package文件夾中。
            2)、解壓縮操作。並創建數據保存文件hdfs。
                [hadoop@slaver1 package]$ tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /home/hadoop/soft/
                [hadoop@slaver1 hadoop-2.5.0-cdh5.3.6]$ mkdir hdfs
            3)、配置hadoop-env.sh，mapred-env.sh，yarn-env.sh文件。
                hadoop-env.sh文件修改如下所示:
                    export JAVA_HOME=/home/hadoop/soft/jdk1.7.0_79
                    完全分布式需要指定hadoop的pid路徑:
                    export HADOOP_PID_DIR=/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
                yarn-env.sh文件修改如下所示:    
                    export JAVA_HOME=/home/hadoop/soft/jdk1.7.0_79
                    由於沒有默認的，所以手動創建:
                    export YARN_PID_DIR=export HADOOP_MAPRED_PID_DIR=/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
                mapred-env.sh。
                    export HADOOP_MAPRED_PID_DIR=/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
            4)、配置基本環境變量core-site.xml文件。
                <configuration>
                <!-- 指定HADOOP所使用的文件系統schema（URI），HDFS的老大（NameNode）的地址,master即是namenode所在的節點機器，9000是端口號，NameNode是為客戶提供服務的，NameNode知道每一個文件存在哪一個datanode上面 -->
                        <property>
                                <name>fs.defaultFS</name>
                                <value>hdfs://slaver1:9000</value>
                                <--<value>hdfs://slaver1:8020</value>-->
                        </property>
                        <!-- 指定hadoop運行時產生文件的存儲目錄 -->
                        <property>
                                <name>hadoop.tmp.dir</name>
                                <value>/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/hdfs/tmp</value>
                        </property>
                </configuration>
            5)、配置hdfs相關變量hdfs-site.xml文件。
                <configuration>
                    <!-- 指定HDFS副本的數量,副本的數量，避免一個機器宕掉了，數據丟失，默認是3個副本 -->
                    <property>
                        <name>dfs.replication</name>
                        <value>2</value>
                    </property>
                    <property>
                        <name>dfs.namenode.name.dir</name>
                        <value>/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/hdfs/name</value>
                    </property>
                    <property>
                    <name>dfs.namenode.data.dir</name>
                    <value>/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/hdfs/data</value>
                    </property>
                    <!-- 指定SecondNameNode在那台機器上面啟動 -->
                    <property>
                        <name>dfs.secondary.http.address</name>
                        <value>slaver1:50090</value>
                    </property>
                </configuration>

            6)、配置mapred相關環境變量mapred-site.xml文件。
                復制操作:
                    [hadoop@slaver1 hadoop]$ cp mapred-site.xml.template mapred-site.xml;
                修改內容如下所示:    
                    <configuration>
                    <!-- 指定mr運行在yarn上，即mapreduce運行在yarn上面 -->
                        <property>
                             <name>mapreduce.framework.name</name>
                             <value>yarn</value>
                        </property>

                    </configuration>    
            7)、配置yarn相關環境變量yarn-site.xml文件。
                <configuration>
                    <!-- Site specific YARN configuration properties -->
                    <!-- 指定YARN的老大（ResourceManager）的地址，這個地方主要看自己的機器分配情況，如果是四台機器，這個value值就>是第四台的主機名稱哦， -->
                    <property>
                        <name>yarn.resourcemanager.hostname</name>
                        <value>slaver1</value>
                    </property>
                    <!-- reducer獲取數據的方式 -->
                    <property>
                        <name>yarn.nodemanager.aux-services</name>
                        <value>mapreduce_shuffle</value>
                    </property>
                </configuration>

            8)、配置datanode相關變量slaves文件。
                slaver2
                slaver3
            9)、配置hadoop相關環境變量。
                export JAVA_HOME=/home/hadoop/soft/jdk1.7.0_79
                export HADOOP_HOME=/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6
                export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
                刷新配置文件:
                    [hadoop@slaver1 hadoop]$ source /etc/profile
                驗證是否配置成功:
                    [hadoop@slaver1 hadoop]$ hadoop version
            10)、將slaver1機器上面的hadoop復制到slaver2機器和slaver3機器:
                [hadoop@slaver1 soft]$ scp -r hadoop-2.5.0-cdh5.3.6/ slaver2:/home/hadoop/soft/
                [hadoop@slaver1 soft]$ scp -r hadoop-2.5.0-cdh5.3.6/ slaver3:/home/hadoop/soft/
            11)、hadoop的啟動步驟:
                a、第一次啟動hadoop之前需要格式化namenode節點，命令為hadoop namenode -format:
                    [hadoop@slaver1 soft]$ hadoop namenode -format
                b、兩個方式啟動start-all.sh或者start-dfs.sh，start-yarn.sh。
                    [hadoop@slaver1 soft]$ start-all.sh
                    或者:
                    [hadoop@slaver1 soft]$ start-dfs.sh
                    [hadoop@slaver1 soft]$ start-yarn.sh
                c、查看是否啟動成功。
                    注意:啟動過程中出現slaver1主節點的ResourceManager未啟動異常情況，解決方法是在yarn-site.xml文件中修改如下所示，注意，slaver1是主節點的主機名稱:
                        <property>
                            <name>yarn.resourcemanager.hostname</name>
                            <value>slaver1</value>
                        </property>
                    驗證如下所示，然后查看節點的啟動情況，通過jps命令查看hadoop的進程是否啟動:
                        [hadoop@slaver1 hadoop]$ jps
                        [hadoop@slaver2 hadoop]$ jps
                        [hadoop@slaver3 hadoop]$ jps
                    網頁查看如下所示，查看web界面是否顯示正常信息內容:
                        查看分布式文件系統，http://slaver1:50070/
                        查看MapReduce，http://slaver1:8088/
　　　　　　　　　　　 驗證hadoop對應的yarn（mapreduce）框架是否啟動成功，直接運行hadoop自帶的example程序即可；
　　　　　　　　　　　　　　[hadoop@slaver1 hadoop]$ echo "i like learn bigdata!" >> /home/hadoop/data_hadoop/test.txt
　　　　　　　　　　　　　　[hadoop@slaver1 hadoop]$ hadoop dfs -put /home/hadoop/data_hadoop/test.txt /
　　　　　　　　　　　　　　[hadoop@slaver1 hadoop]$ hadoop dfs -ls /
　　　　　　　　　　　　　　[hadoop@slaver1 mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /test.txt /output
　　　　　　　　　　　　　　注意:如果上面執行失敗或者卡着不動，檢查是否是進程宕掉了。
　　　　　　　　　　　　　　[hadoop@slaver1 mapreduce]$ hadoop fs -cat /user/hadoop/output/part-r-00000查看統計的內容；

5、Hadoop Shell命令簡單描述：

hadoop的shell命令主要分為兩類，一類是啟動命令，一類是控制和操作命令(hdfs/mapred/yarn)。其中啟動命令位於sbin目錄下面，控制和操作命令主要位於bin目錄下面。其實最終的啟動命令也是調用控制命令來進行集群服務的啟動，區別在於啟動命令中需要使用ssh的相關命令來控制其他機器啟動服務，而控制和操作命令主要是直接調用hadoop提供的服務類接口。
1)、查看hdfs可以跟的命令，查看hadoop可以跟的命令:
    [hadoop@slaver1 mapreduce]$ hdfs    
    [hadoop@slaver1 mapreduce]$ hadoop
2)、hdfs命令(hdfs dfs)，和hadoop命令，顯示文件夾的內容:
    [hadoop@slaver1 mapreduce]$ hadoop fs -ls /
    如果遞歸顯示文件夾的內容如下所示-lsr是遞歸顯示:
    [hadoop@slaver1 mapreduce]$ hadoop fs -lsr /
    [hadoop@slaver1 mapreduce]$ hdfs dfs -ls /
    如果遞歸顯示文件夾的內容如下所示-lsr是遞歸顯示:
    [hadoop@slaver1 mapreduce]$ hdfs dfs -ls -R /
    [hadoop@slaver1 mapreduce]$ hdfs dfs -lsr /    
3)、hdfs命令查看命令幫助:
    [hadoop@slaver1 mapreduce]$ hdfs dfs -help ls
4)、hdfs命令，創建文件夾:
    [hadoop@slaver1 mapreduce]$ hdfs dfs -mkdir -p /201804/20180405
    -p參數指定當需要創建文件夾存儲，那么不報錯，默認情況會報錯。另外一個作用就是遞歸創建文件夾。如果我們給定的路徑不是以/開始的，那么表示在當前用戶目錄下創建文件夾。(默認情況下是沒有當前用戶目錄的，那么就會報錯)
5)、hdfs命令，上傳文件到HDFS。-put，-copyFromLocal，-moveFromLocal。
    [hadoop@slaver1 data_hadoop]$ hdfs dfs -put test.txt /201804/20180405
    本地路徑可以指定文件夾或者多個文件，hdfs上的路徑必須是根據上傳東西的不同，有不同的要求:
        a、本地指定的是文件夾，那么hdfs如果目錄不存在，就新建目錄然后將本地文件夾內容copy過去。hdfs目錄存在，則將文件夾copy過去。
        b、本地指定的是單個文件，那么要求hdfs上指定的文件不存在。
        c、本地指定的多個文件，那么要求hdfs上指定的文件夾存在。
6)、hdfs命令，下載文件。-get，-copyToLocal，-moveToLocal。
    [hadoop@slaver1 data_hadoop]$ hdfs dfs -get /201804
7)、hdfs命令，查看文件內容:
    [hadoop@slaver1 data_hadoop]$ hdfs dfs -cat /test.txt
    [hadoop@slaver1 data_hadoop]$ hdfs dfs -text /test.txt
    cat命令和text命令都可以查看文件內容，但是他們的內置機制不一樣，cat是copy文件內容，然后顯示。text是通過hadoop解析將文件內容轉換為文本內容，然后再顯示。cat命令只適合看一半的文本文件，而text命令可以看出所有文件。
8)、hdfs命令刪除文件。
    [hadoop@slaver1 data_hadoop]$ hdfs dfs -rm -R /201804
    [hadoop@slaver1 data_hadoop]$ hdfs dfs -rmdir /201804/20180405
    區別:rm和rmdir的區別主要是，rm可以刪除任何文件/文件夾。rmdir只能刪除空的文件夾。
9)、hdfs命令，fsck命令。
    fsck命令是檢測hdfs磁盤文件是否有丟失備份異常等信息，可以查看到具體的文件是否處於健康情況，執行命令為hdfs -fsck 文件路徑。
    [hadoop@slaver1 data_hadoop]$ hdfs fsck /201804
    [hadoop@slaver1 data_hadoop]$ hdfs fsck -help    
10)、hdfs命令，dfsadmin命令匯報集群信息。
    a、參數-report
        可以通過該命令查看集群的基本信息，包括總磁盤大小，剩余磁盤大小，丟失塊個數等總的集群信息。
        [hadoop@slaver1 data_hadoop]$ hdfs dfsadmin -report
    b、參數-safemode<enter | leave | get | wait>
        當集群中的文件備份出現丟失的時候，可能會進行安全模式。安全模式是指當集群處於該狀態下，hdfs解決文件IO操作。我們可以通過該命令強制離開安全模式。
        [hadoop@slaver1 data_hadoop]$ hdfs dfsadmin -safemode get
11)、hdfs命令，-namenode命令
    namenode命令是hadoop提供的操作NN節點的shell命令入口，包括NN節點的格式化，NN節點升級，NN節點回滾，NN節點啟動等操作。查看幫助信息:hdfs namenode -h；
    [hadoop@slaver1 data_hadoop]$ hdfs namenode -h    
12)、hadoop命令
    hadoop命令主要是將hdfs，yarn，mapred全部命令進行一個整合，實際生活中一般情況下主要使用hadoop命令來進行job的管理到多個集群之間的數據復制文件。常用命令主要有:
        a、job,job聲明周期管理，包括提交，查看狀態，kill等等。
            [hadoop@slaver1 data_hadoop]$ hadoop job
            該命令主要是根據我們控制job聲明周期的接口。我們可以通過該命令提交job，查看我們提交job的運行情況，殺死我們提交的job，也可以刪除job運行中的某個具體task;
            
        b、distcp，多集群間數據復制。
        c、version，查看hadoop版本信息。

6、Hdfs結構介紹和YARN的介紹:

a、hdfs是hadoop提供的基於分布式的文件存儲系統。全稱為hadoop distributed file system。主要是由namenode，datanode兩類節點構成，其中namenode節點的主要功能是管理系統的元數據，負責管理文件系統的命令空間，記錄文件數據塊在datanode節點上面的位置和副本信息，協調客戶端對文件系統的訪問，以及記錄命名空間的改動和本身屬性的變動。datanode節點的主要功能就是負責節點所在物理節點上的存儲管理。
b、MapReduce(YARN)是hadoop提供的一種處理海量數據的並行編程模型和計算框架，用於對大規模的數據進行並行計算。主要由resourcemanager和nodemanager兩類節點構成。其中resourcemanager主要負責集群資源管理，nodemanager負責節點的資源管理。初次之外，當運行mapreduce任務的時候，會產生ApplicationMaster和Container,其中ApplicationMaster負責向resourcemanager節點進行資源的申請並控制任務的執行，Container是最基本的資源單位。MapReduce的map和reduce均是其之上進行的。

7：Hbase的鞏固與學習:

a、Hbase是建立在hdfs之上的一個提供可靠性，高性能，列存儲，可伸縮，實時讀寫的數據庫系統。是一種介於nosql和RDBMS之間的一種數據庫系統，僅支持通過rowkey和range進行數據的檢索，主要存儲非結構化數據和半結構化數據。Hbase的目標是通過橫向擴展，添加普通機器來增加存儲性能和計算性能。Hbase的特點，大（一個表可以有上億行以及百萬級的行），面向列存儲，稀疏（由於null不占用存儲空間，所有表結構可以設計的非常稀疏）
b、Hbase使用zookeeper進行集群的節點管理，當然hbase自身集成了一個zk系統，不過一般情況下在實際成產環境中不使用。Hbase由master,進程是hmaster和regionserver,進程是hregionserver兩類節點（如果使用hbase自帶的zk服務,那么還有HQuorumPeer進程）。Hbase支持提供backup master進行master備份。其中節點負責和zk進行通信以及存儲regionserver的相關位置信息，regionserver節點實現具體對數據的操作，最終數據存儲在hdfs上。
c、Hbase的安裝:
　 1）、hbase存在三種安裝方式，一種是獨立模式，基本不用，第二種是分布式模式（繼承zookeeper），第三種是分布式模式（獨立zookeeper）。
   2）、hbase的下載地址如下所示：http://archive.cloudera.com/cdh5/cdh/5/。
　 3）、hbase的安裝參考如下所示：http://www.cnblogs.com/biehongli/p/7729135.html。
　 4）、在hbase的根目錄下創建一個文件夾hbase來存儲臨時文件和pid等等。默認是tmp目錄。
   5）、創建到hdfs-site.xml的軟連接或者配置連接hdfs的配置信息。然后將hbase的相關信息添加到環境變量中。
   6）、可以查看hbase是否安裝成功:[hadoop@slaver1 bin]$ hbase version。
   7）、驗證hbase的三種方式:第一種，jps查看是否有Hbase的進程啟動,HMaster,HRegionServer。第二種，web界面查看是否啟動http://192.168.19.131:60010/。第三種，shell命令客戶端查看是否啟動成功。[hadoop@slaver1 conf]$ hbase shell
　 8）、hbase shell的命令參數忘記，可以使用如下查看：hbase(main):006:0> help 'status'，hbase(main):009:0> help 'alter'等等
   9)、hbase命名空間相關命令:命名空間的作用是類似關系型數據中的database,作用就是將hbase的表按照業務作用分隔開，有益於維護。Hbase默認有兩個命名空間，分別是hbase和default。其中hbase命名空間存儲hbase自身的表信息，default存儲用戶創建的表。
　　　　命名:create_namespace（創建命名空間），alert_namespace（命名空間修改），describe_namespace(顯示命名空間描述信息)，drop_namespace(刪除命名空間)。list_namespace(顯示所有命名空間)，list_namespace_tables(顯示對於命名空間中的table名稱)。
d、zookeeper的安裝和部署:
　　1)、將zookeeper-3.4.5-cdh5.3.6.tar.gz上傳到虛擬機，進行解壓縮操作,具體類比參考：http://www.cnblogs.com/biehongli/p/7650570.html
　　　　也可以在線下載，如果網絡可以的話。命令如下所示：
　　　　[hadoop@slaver1 script_hadoop]$ wget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.3.6.tar.gz
e、mapreduce與hbase的整合，搭建步驟:
　　1)、在hadoop目錄中創建hbase-site.xml的軟連接。在真正的集群環境中的時候,hadoop運行mapreduce會通過該文件查找具體的hbase環境信息。
　　　　[hadoop@slaver1 ~]$ ln -s /home/hadoop/soft/hbase-0.98.6-cdh5.3.6/conf/hbase-site.xml /home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/etc/hadoop/hbase-site.xml
　　2）、將hbase需要的jar包添加到hadoop運行環境中，其中hbase需要的jar就是lib文件夾下面的所有*.jar文件。
　　　　在hadoop中提娜佳其他第三方的jar有很多方式，比如添加hbase的jar到hadoop環境中。這里介紹三種:
　　　　第一種：在hadoop-env.sh中添加HADOOP_CLASS環境變量，value為hbase的lib文件夾下的所有jar文件。
　　　　　　if [ "$HADOOP_CLASSPATH" ]; then
  　　　　　　　　export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/home/hadoop/soft/hbase-0.98.6-cdh5.3.6/lib/*
　　　　　　else
 　　　　　　　　export HADOOP_CLASSPATH=/home/hadoop/soft/hbase-0.98.6-cdh5.3.6/lib/*
　　　　　　fi
　　　　第二種:在系統級或者用戶級修改*profile文件內容，在文件中添加HADOOP_CLASSPATH。
　　　　第三種:直接將hbase的lib文件夾中所有jar文件復制到hadoop的share/hadoop/common/lib或者share/hadoop/mapreduce或者share/hadoop/marreudce2等文件夾中。
　　　　　
　　3）、使用hbase自帶的server jar測試是否安裝成功。
　　　　直接使用hbase自帶的命令進行環境的測試，命令為:。該命令可以查看我們指定table的行數。
　　　　[hadoop@slaver1 lib]$ cd /home/hadoop/soft/hbase-0.98.6-cdh5.3.6/lib
　　　　[hadoop@slaver1 lib]$ hadoop jar hbase-server-0.98.6-cdh5.3.6.jar rowcounter student

8、Hive的學習與鞏固：

1、Hive是構建在hadoop之上的數據倉庫平台，設計目標就是將hadoop上的數據操作同sql結合，讓熟悉sql編程的開發人員能輕松的向hadoop平台上轉移。hive可以在hdfs上構建數據倉庫存儲結構化數據，這些數據來源就是Hdfs上，Hive提供了一個類似sq的查詢語言Hivesql來進行查詢，變換數據等操作。當然hivesql語句的底層是轉換為相應的mapreduce代碼進行執行的。
2、hive包含用戶接口，元數據庫，解析器，數據倉庫等組件組成，其中用戶接口包含shell客戶端，jdbc,odbc,web接口等等。元數據庫主要是指定義在hive中的表結構信息，一般保存到關系型數據庫中，默認是derby，一般使用mysql進行保存。解析器主要功能是將hql轉換為mapreduce代碼。數據倉庫就是由hdfs組成的數據存儲容器。
3、hive根據metastore的存儲位置不同，分為三種安裝模式，內嵌模式，本地模式，遠程模式。內嵌模式就是使用derdy存儲元數據。本地模式是將hive.metastore.local設置為true,就是說metastore和hive客戶端安裝在同一台機器上。遠程模式指的是我們明確指定metastore安裝的機器位置，而且可以指定多個，需要給定參數hive.metastore.uris並且hive.metastore.local必須設置為false。
　　hive遠程模式安裝，使用mysql進行元數據的存儲，安裝步驟:
　　a、安裝mysql數據庫。安裝操作如下所示：
　　　　安裝步驟：
　　　　　　1）使用root用戶安裝mysql。
　　　　　　　　[hadoop@slaver1 ~]$ su root
　　　　　　　　安裝mysql:
　　　　　　　　[root@slaver1 hadoop]# yum install mysql
　　　　　　　　安裝mysql的服務端：
　　　　　　　　[root@slaver1 hadoop]# yum install mysql-server
　　　　　　　　安裝mysql的devel，可選：
　　　　　　　　[root@slaver1 hadoop]# yum install mysql-devel
　　　　　　2）修改/etc/my.cnf文件中的配置信息。
　　　　　　　　[root@slaver1 hadoop]# vim /etc/my.cnf
　　　　　　　　添加：
　　　　　　　　[mysql]
　　　　　　　　default-character-set=utf8
　　　　　　　　[mysqld]
　　　　　　　　character-set-server=utf8
　　　　　　　　lower_case_table_names=1
　　　　　　3）啟動Mysql，設置root用戶密碼，使用root用戶登陸。啟動mysql服務，停止mysql服務，重啟mysql服務。注意在linux的普通用戶操作下，關閉mysql是無法關閉的，Stopping mysqld:[FAILED]
　　　　　　　 [root@slaver1 hadoop]# service mysqld start
　　　　　　　 [root@slaver1 hadoop]# service mysqld stop
　　　　　　　 [root@slaver1 hadoop]# service mysqld restart
　　　　　　　　mysql開機啟動：[root@slaver1 soft]# chkconfig mysqld on
　　　　　　　　查看mysql是否啟動：[root@slaver1 hadoop]# ps -ef | grep mysql
　　　　　　　　設置超級管理員密碼：[root@slaver1 hadoop]# mysqladmin -u root password 123456
　　　　　　   使用超級管理員登陸系統：[root@slaver1 hadoop]# mysql -uroot -p123456
　　　　　　4）創建Hive元數據的Mysql用戶。創建用戶，刪除沒有密碼的用戶，授權，刷新權限，最后重啟mysql服務即可。
　　　　　　　　mysql> show databases;
　　　　　　　　mysql> use mysql;
     　　　　  mysql> show tables;
              mysql> select user,host from user;
　　　　　　　　mysql> create user 'hive' identified by 'hive';創建Hive的用戶，密碼也是hive.
              mysql> grant all privileges on *.* to 'hive'@'%' with grant option;授權
　　　　　　　　mysql> FLUSH PRIVILEGES;刷新權限
　　　　　　　　mysql> delete from user where password="";可以將沒有密碼的用戶刪除了，避免出現問題。ERROR 1045 (28000): Access denied for user 'hive'@'localhost' (using password: YES)
　　　　　　5）使用新用戶登陸，然后創建數據庫，並修改數據庫的連接方式。
　　　　　　　 [root@slaver1 ~]# mysql -uhive -p
　　　　　　　　mysql> create database hive;創建數據庫
　　　　　　　　mysql> alter database hive character set latin1;設置字符集
　　b、hive模式安裝。
　　　　1）、下載hive,下載地址http://archive.cloudera.com/cdh5/cdh/5/。
　　　　2）、解壓下載的壓縮包。
　　　　　　[root@slaver1 package]$ tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /home/hadoop/soft/
　　　　3）、配置環境變量hive.site.xml。
　　　　　　[root@slaver1 conf]$ cp hive-default.xml.template hive-site.xml
　　　　　　[hadoop@slaver1 conf]$ vim hive-site.xml
　　　　　　由於復制的文件內容很多，刪除起來很慢，所以可以自己創建一個hive-site.xml文件：
　　　　　　<?xml version="1.0" encoding="UTF-8" standalone="no"?>
　　　　　　<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
　　　　　　<configuration>
　　　　　　<!--
　　　　　　<property>
　　　　　　　　<name>hive.metastore.uris</name>
　　　　　　　　<value>thrift://slaver1:9083</value>
　　　　　　</property>
　　　　　　<property>
　　　　　　　　<name>hive.metastore.warehouse.dir</name>
　　　　　　　　<value>/hive</value>
　　　　　　</property>
　　　　　　-->
　　　　　　<property>
　　　　　　　　<name>javax.jdo.option.ConnectionURL</name>
　　　　　　　　<value>jdbc:mysql://slaver1:3306/hive?createDatabaseIfNotExist=true</value>
　　　　　　</property>
　　　　　　<property>
　　　　　　　　<name>javax.jdo.option.ConnectionDriverName</name>
　　　　　　　　<value>com.mysql.jdbc.Driver</value>
　　　　　　</property>
　　　　　　<property>
　　　　　　　　<name>javax.jdo.option.ConnectionUserName</name>
　　　　　　　　<value>hive</value>
　　　　　　</property>
　　　　　　<property>
　　　　　　　　<name>javax.jdo.option.ConnectionPassword</name>
　　　　　　　　<value>hive</value>
　　　　　　</property>
　　　　　　</configuration>
　　　　4）、將mysql-connector-java-5.1.31.jar移動到Hive的lib文件夾下面。
　　　　　　[hadoop@slaver1 lib]$ cp /home/hadoop/package/mysql-connector-java-5.1.31.jar ./
　　　　5）、將bin目錄添加到$PATH環境變量中去。
　　　　　　[hadoop@slaver1 ~]$ sudo vim /etc/profile
　　　　　　export HIVE_HOME=/home/hadoop/soft/hive-0.13.1-cdh5.3.6
　　　　　　export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin:$SCRIPT:$HBASE_HOME/bin:$HIVE_HOME/bin
　　　　　　[hadoop@slaver1 ~]$ source /etc/profile
　　　　6）、啟動metastore服務。hive --service metastore &(首先要啟動hdfs和Yarn服務的哦)：
　　　　　　　[hadoop@slaver1 conf]$ hive --service metastore &。可以去創建的hive的數據庫里面已經創建了很多數據表。mysql> show databases;mysql> use hive;mysql> show tables;
　　　　7）、進入hive的shell客戶端，驗證是否安裝成功。
　　　　　　[hadoop@slaver1 soft]$ hive
　　　　　　然后就可以使用hive了：hive> show databases；
　　　　　　hive> create table user(id int,name string);創建第一個數據表以后就可以在hdfs查看hive文件了，里面已經存在創建的數據表。
　　　　8）、hive web安裝。hive提供一個web的操作客戶端，一般我們通過該頁面查看Hive的信息，配置信息包括:hive.hwi.listen.host指定監聽ip，默認為0.0.0.0。hive.hwi.listen.port監聽端口，默認為9999，hive.hwi.war.file=xxx。另外需要將java的tool.jar文件移動到hive的lib文件夾中。啟動命令為:hive --service hwi &。
　　　　9）、hive默認提供的cli(shell)服務，如果需要啟動其他服務，那么需要service參數來啟動其他服務，比如thrift服務，metastore服務等等。可以通過命令hive --service help查看支持的命令。
　　c、hive命令的復習和鞏固：
　　　　1）、hive shell命令介紹，hive的shell命令是通過hive目錄下面的bin目錄的hive來控制的，通過該文件可以進行hive當前回話的環境管理，也可以進行hive的表管理操作。hive命令必須使用";"進行結束標示。通過hive -H查看幫助信息。[hadoop@slaver1 ~]$ hive -H
　　　　2)、hive的shell基本常用命令主要包含退出客戶端，添加文件，修改/查看環境變量，執行linux命令，執行dfs命令等等。命令包括：quit,exit,set（無參是查看，有參是設置值，只在當前回話有效）,add JAR[S] <filepath> <filepath>*,list JAR[S],delete JAR[S] <filepath>*, !<linux-command>（hive> !ls -ls;）,dfs<dfs command>（hive> dfs -ls /;）等等。除了hive的基本命令外，其他的命令主要是ddl和dml等操作數據表的命令。
　　　　3）、hiveql簡稱hql,是一種類似sql的查詢語言，絕大多數語法和sql類似。hql支持基本類型和復雜類型兩大數據類型。基本類型包括TINYINT(1 byte),SMALLINT(2 byte),INT(4 byte),BIGINT(8 byte),FLOAT(4 byte),DOUBLE(8 byte),BOOLEAN(-),string(2G)。復雜類型包括ARRAY(一組有序數組，類型必須一致)，MAP(無序鍵值對，鍵值內部字段類型必須相同，而且要求key的類型為基本數據類型)，STRUCT(一組字段，類型任意)。
　　　　4）、show 命令的主要作用是查看database,table，function等組件的名稱信息，也就是通過show命令我們可以知道我們的hive中有那些數據庫，或者數據表。describe命令主要作用是獲取databse,table,partition的具體描述信息，包括存儲位置，字段類型等信息。explain命令的主要作用是獲取Hql語句的執行計划，我們可以通過分析這些執行計划來優化hql語句。

9、Nginx的安裝鞏固復習：

1、使用root用戶登陸。
2、查看nginx信息，命令yum info nginx.
　　[root@slaver1 ~]# yum info nginx
3、如果查看nginx信息提示nginx找不到，可以通過修改rpm源來進行后續步驟，執行命令：rpm -ivh http://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpm
　　[root@slaver1 ~]# rpm -ivh http://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpm
4、再查看nginx信息。
　　[root@slaver1 ~]# yum info nginx
5、安裝，命令，yum install nginx,在安裝過程中直接輸入y.
　　[root@slaver1 ~]# yum install nginx
6、啟動nginx,命令service nginx start.
　　[root@slaver1 ~]# service nginx start
7、訪問http://slaver1查看nginx的web頁面。

10、Flume介紹：

　　Flume是Apache基金會組織的一個提供的高可用的，高可靠的，分布式的海量日志采集，聚合和傳輸的系統，Flume支持在日志系統中定制各類數據發送方，用於收集日志。同時，flume提供對數據進行簡單處理，並寫到各種數據接收方（可以定制）的能力。當前flume有兩個版本，flume0.9x版本之前的統稱為flume-og,flume1.x版本統稱為flume-ng。

a、主要區別如下所示：
　　1）、flume-og中采用Master結構，為了保證數據的一致性，引入zookeeper進行管理。flume-ng中取消了集中master機制和zookeeper管理機制，變成了一個純粹的傳輸工具。
　　2）、flume-ng中采用不同的線程進行數據的讀寫操作，在flume-og中，讀數據和寫數據是由同一個線程操作的，如果寫出比較慢的話，可能會阻塞flume的接受數據的能力。
b、flume的結構：
　　flume中以agent為基本單位，一個agent可以包括source,channel,sink，三種組件都可以有多個。其中source組件主要功能是接受外部數據，並將數據傳輸到channel中。sink組件的主要功能是發送flume接受到的數據為目的的。channel的主要作用就是數據傳輸和保存的一個作用。fulme主要分為三類結構，單agent結構，多agent鏈式結構和多路復用agent結構。
c、flume的安裝操作：
　　1）、將壓縮包上傳到虛擬機。過程省略。
　　　　http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.5.0-cdh5.3.6.tar.gz
　　2）、解壓縮操作。命令如下所示：
　　　　[hadoop@slaver1 package]$ tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz -C /home/hadoop/soft/
　　3）、進入到flume的conf目錄，復制flume-env.sh.template為flume-env.sh：
　　　　[hadoop@slaver1 conf]$ cp flume-env.sh.template flume-env.sh
　　4）、修改flume-env.sh，添加如下jdk的路徑信息：
　　　　export JAVA_HOME=/home/hadoop/soft/jdk1.7.0_79
　　5)、將flume的bin目錄添加到環境變量中去。
　　6）詳細配置見http://www.cnblogs.com/biehongli/p/8031403.html。
　　7）、驗證是否安裝成功。[hadoop@slaver1 conf]$ flume-ng version
d、flume的案例（案例詳細步驟可參考http://www.cnblogs.com/biehongli/p/8031403.html）:
　　使用netcat source監聽客戶端的請求，使用memory channel作為數據的傳輸通道，使用logger sink打印監聽到的信息。步驟：
　　　　1）、在conf文件夾中建立test.conf，里面是agent的配置。
　　　　2）、啟動flume-ng agent --conf ./conf/ --conf-file ./conf/test.conf --name a1 -Dflume.root.logger=INFO,console。
　　　　3）、使用telenet命令連接機器，命令：telenet slaver1 4444
　　　　4）、輸入信息查看是否成功

11、Sqoop的鞏固與學習：

a、sqoop是一款開源的工具，主要用於在hadoop(hive)與傳統的數據庫（mysql,oracle）之間進行數據的傳遞，可以將一個關系型數據庫中的數據導入到hadoop的hdfs中，也可以將hdfs的數據導入到關系型數據庫中。一般情況下，是將數據分析的結果導出到關系型數據庫中，供其他部門使用。sqoop專門為大數據設計，可以通過分割數據集來啟動多個mapreduce程序來處理每個數據塊。
b、sqoop的安裝和部署：詳細步驟見http://www.cnblogs.com/biehongli/p/8039128.html
　　1）、sqoop的下載：wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6.tar.gz
　　2）、解壓縮操作。
　　　　[hadoop@slaver1 package]$ tar -zxvf sqoop-1.4.5-cdh5.3.6.tar.gz -C /home/hadoop/soft/
　　3）、復制相關的依賴包到lib文件夾中。
　　　　[hadoop@slaver1 lib]$ cp /home/hadoop/package/mysql-connector-java-5.1.31.jar ./
　　　　[hadoop@slaver1 lib]$ cp /home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/share/hadoop/common/hadoop-common-2.5.0-cdh5.3.6.jar ./
　　　　[hadoop@slaver1 lib]$ cp /home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs//hadoop-hdfs-2.5.0-cdh5.3.6.jar ./
　　　　[hadoop@slaver1 lib]$ cp /home/hadoop/soft/hadoop-2.5.0-cdh5.3.6/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.5.0-cdh5.3.6.jar ./
　　4）、修改conf/sqoop-env.sh文件。
　　　　#Set path to where bin/hadoop is available
　　　　export HADOOP_COMMON_HOME=/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6
　　　　#Set path to where hadoop-*-core.jar is available
　　　　export HADOOP_MAPRED_HOME=/home/hadoop/soft/hadoop-2.5.0-cdh5.3.6
　　　　#set the path to where bin/hbase is available
　　　　export HBASE_HOME=/home/hadoop/soft/hbase-0.98.6-cdh5.3.6
　　　　#Set the path to where bin/hive is available
　　　　export HIVE_HOME=/home/hadoop/soft/hive-0.13.1-cdh5.3.6
　　5）、添加sqoop常量到用戶環境變量中去。
　　　　sudo vim /etc/profile
　　　　export SQOOP_HOME=/home/hadoop/soft/sqoop-1.4.5-cdh5.3.6
　　　　export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin:$SCRIPT:$HBASE_HOME/bin:$HIVE_HOME/bin:$FLUME_HOME/bin:$SQOOP_HOME/bin
　　6）、測試是否安裝成功。[hadoop@slaver1 conf]$ sqoop version
c、sqoop命令介紹：
　　1）、sqoop總共有14個命令，包括：codegen,create-hive-table,eval,export,help,import,import-all-tables,import-mainframe,job,list-databases,list-tables,merger,metastore,version。其中常用命令為create-hive-table,export,import,help等等。
　　2）、sqoop命令格式：sqoop <command> <generic-options> <command-options>。也就是說sqoop的所有命令有公用的參數列表，除此之外每個命令都有自己特定的執行參數。
　　3）、help命令主要作用是查看sqoop提供的幫助信息，命令格式：sqop help[<command>]。help后面的參數為sqoop支持的命令格式。如果不給定help后面的參數，那么表示顯示sqoop命令的幫助信息，如果給定后面的參數，那么顯示具體sqoop命令的幫助信息。
　　　　[hadoop@slaver1 lib]$ sqoop help
　　　　[hadoop@slaver1 lib]$ sqoop help import
　　4）、list-tables和list-databases兩個命令都是針對關系型數據庫(可以通過jdbc連接的數據庫/數據倉庫）而言的，我們一般可以通過該命令查看對應數據庫中的table&database的列表。基本命令格式為:sqoop (list-tables|list-databases) --connect jdbc_url --username db_name --password db_pwd;
　　　　[hadoop@slaver1 lib]$ sqoop list-tables --connect jdbc:mysql://slaver1:3306/hive --username hive --password hive
　　　　[hadoop@slaver1 lib]$ sqoop list-databases --connect jdbc:mysql://slaver1:3306/hive --username hive --password hive
　　5） 、create-hive-table命令根據關系型數據庫中的表創建hive表，不進行數據的copy,只進行表結構的copy。如果hive中存在要創建的表，默認情況下不進行任何操作。命令格式sqoop create-hive-table --connect jdbc_url --username db_name --password db_pwd --table db_table_name --hive-table hive_table_name。
　　　　[hadoop@slaver1 lib]$ sqoop create-hive-table --connect jdbc:mysql://slaver1:3306/hive --username hive --password hive --table version --hive-table hivetest
　　6)、import命令的主要作用是將關系型數據庫中的數據導入到hdfs文件系統中（或者hbase/hive）中，不管是導入到hbase還是導入到hive中，都需要先導入到hdfs中，然后再導入到最終的位置。一般情況下，只會采用將關系型數據庫的數據導入到hdfs或者hive中，不會導入到hbase中。import命令導入到hdfs中默認采用','進行分割字段值，導入到hive中默認采用'\u0001'來進行分割字段值，如果有特殊的分割方式，我們可以通過參數指定。import命令導入到hive的時候，會先在/user/$(user.name)/文件夾下創建一個同關系型數據庫表名的一個文件夾作中轉文件夾，如果該文件夾存在，則報錯。可以通過命令sqoop help import 查看幫助命令。
　　　　a、import命令，將mysql表tb_user中的數據導入hive的user表，hive的user表不存在。
　　　　　　[hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$ sqoop import --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user --hive-table user --hive-import -m 1
　　　　b、在a的基礎上，分別進行overwrite（覆蓋），導入和into(直接加入)導入。
　　　　　　into直接導入命令同a的實例。
　　　　　　overwrite如下所示（由於數據表相同，記得刪除hdfs上面的數據表）：
　　　　　　　　[hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$ sqoop import --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user --hive-table user --hive-import -m 1 --hive-overwrite
　　　　c、在b的基礎上，通過增加mysql的tb_user表的數據，增量導入到hive表中。
　　　　　　[hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$ sqoop import --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user --where  "id>=5" --hive-table user --hive-import -m 1
　　　　d、將tb_user表中的數據導出到使用','分割字段的hive表中。
　　　　　　hive> create table user2(id int,name string,phone string)
   　　　　 > row format delimited                               
    　　　　> fields terminated by ','; 
　　　　　　[hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$  sqoop import --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user --hive-table user2 --hive-import -m 1 --fields-terminated-by ","
　　　　e、將tb_user表的數據導入到hdfs中。
　　　　　　[hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$ sqoop import --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user --target-dir /test --m 1
　　　　f、在d的基礎上，增量導出數據到hdfs中。
　　　　　　[hadoop@slaver1 sqoop-1.4.5-cdh5.3.6]$ sqoop import --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user --target-dir /test --m 1 --check-column id --incremental append --last-value 8
　　7）、export命令的主要作用是將hdfs文件數據導入到關系型數據庫中，不支持從hive和Hbase中導出數據，但是由於hive的底層就是hdfs的一個基本文件，所以可以將hive導出數據轉換為從hdfs導出數據。導出數據的時候，默認字段分割方式是',',所以如果hive的字段分割不是',',那么就需要設計成對應格式的分割符號。可以通過命令：sqoop hep export查看幫助文檔。
　　　　注意：前提條件，關系型數據庫中目的表已經存在。
　　　　a、將hdfs上的文件導出到關系型數據庫數據表中。
　　　　　　[hadoop@slaver1 ~]$ sqoop export --connect jdbc:mysql://slaver1:3306/test --username hive --password hive --table tb_user_copy --export-dir /test

待續......

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop實戰：微博數據分析學會數據分析還得看這4個實戰項目！ Python數據分析實戰項目介紹 20個python數據分析實戰項目（附源碼）商業化數據分析師（三十）：平台商品畫像實戰項目（一）簡介 SparkR安裝部署及數據分析實例 Python數據分析實戰 CBoard數據分析實戰 hr員工數據分析（實戰） ClickHouse數據庫培訓實戰（PB級大數據分析平台、大規模分布式集群架構）