Hadoop、HBase、Spark單機安裝

本文轉載自查看原文 2020-07-13 12:50 545 大數據

水平有限，本文僅以流水賬的方式介紹自己安裝三款軟件的過程。

環境Ubuntu on 虛擬機：

$ cat /proc/version
Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \
(Ubuntu 7.4.0-1ubuntu1~18.04.1)) #58-Ubuntu SMP Mon Jun 24 10:55:24 UTC 2019

背景

Hadoop 包含 HDFS、MapReduce（兩大核心），基於 Hadoop core 實現，對了Hadoop中還有一款資源管理器YARN。

HBase 一個分布式數據庫，列存儲模式，HBase將數據存儲在HDFS（基於），分布式NoSQL數據庫，類似MongoDB、Cassandra，不過，可以處理的數據量級大於MongoDB。

Spark 是一個計算框架，為了解決Hadoop的計算效率低下等問題而生，它基於內存做計算，可以基於Hadoop，也可以不和Hadoop一起使用。

三款軟件都屬於 Apache基金會，從下面的鏈接中可以找到各個軟件（Download & Documentation）：

https://www.apache.org/index.html#projects-list

安裝選擇的版本：

Hadoop：hadoop-3.1.3.tar.gz 2019 Oct 21

HBase：hbase-2.2.5-bin.tar.gz 2020/05/21

Spark：spark-3.0.0-bin-hadoop3.2.tgz Jun 18, 2020

注意，

HBase 1.*、2.* 的區別是什么？其 1.6.0 發布於 2020/03/06，看來兩個版本都是處於很好的維護階段。

spark with hadoop、without hadoop的區別是什么？

作者還沒弄明白。

正文

0、准備工作

創建 hadoop用戶（不一定是 hadoop），並添加管理員權限

JDK 8+（Linux上有 OpenJDK 的）

ssh、sshd、pdsh

修改 /etc/profile：添加 export PDSH_RCMD_TYPE=ssh

1、Hadoop

三種安裝模式中的 Pseudo-Distributed Mode（偽分布式）模式 + YARN資源調度器。

解壓hadoop-3.1.3.tar.gz；

修改 etc/hadoop/hadoop-env.sh：

添加export JAVA_HOME=jdk安裝目錄；

執行 bin/hadoop 可以看到這個命令的用戶；

bin目錄下是一些原始命令，sbin目錄下是一些服務命令——啟動、停止等。

此時，hadoop命令就可以使用了，如官網所說，可以執行一些任務了。

etc下文件：

$ ll etc/hadoop/
total 184
drwxr-xr-x 3 hadoop hadoop  4096 7月   9 08:46 ./
drwxr-xr-x 3 hadoop hadoop  4096 9月  12  2019 ../
-rw-r--r-- 1 hadoop hadoop  8260 9月  12  2019 capacity-scheduler.xml
-rw-r--r-- 1 hadoop hadoop  1335 9月  12  2019 configuration.xsl
-rw-r--r-- 1 hadoop hadoop  1940 9月  12  2019 container-executor.cfg
-rw-r--r-- 1 hadoop hadoop   866 6月  29 15:50 core-site.xml
-rw-r--r-- 1 hadoop hadoop  3999 9月  12  2019 hadoop-env.cmd
-rw-r--r-- 1 hadoop hadoop 15934 6月  29 14:48 hadoop-env.sh
-rw-r--r-- 1 hadoop hadoop  3323 9月  12  2019 hadoop-metrics2.properties
-rw-r--r-- 1 hadoop hadoop 11392 9月  12  2019 hadoop-policy.xml
-rw-r--r-- 1 hadoop hadoop  3414 9月  12  2019 hadoop-user-functions.sh.example
-rw-r--r-- 1 hadoop hadoop  1072 6月  30 15:03 hdfs-site.xml
-rw-r--r-- 1 hadoop hadoop  1484 9月  12  2019 httpfs-env.sh
-rw-r--r-- 1 hadoop hadoop  1657 9月  12  2019 httpfs-log4j.properties
-rw-r--r-- 1 hadoop hadoop    21 9月  12  2019 httpfs-signature.secret
-rw-r--r-- 1 hadoop hadoop   620 9月  12  2019 httpfs-site.xml
-rw-r--r-- 1 hadoop hadoop  3518 9月  12  2019 kms-acls.xml
-rw-r--r-- 1 hadoop hadoop  1351 9月  12  2019 kms-env.sh
-rw-r--r-- 1 hadoop hadoop  1747 9月  12  2019 kms-log4j.properties
-rw-r--r-- 1 hadoop hadoop   682 9月  12  2019 kms-site.xml
-rw-r--r-- 1 hadoop hadoop 13326 9月  12  2019 log4j.properties
-rw-r--r-- 1 hadoop hadoop   951 9月  12  2019 mapred-env.cmd
-rw-r--r-- 1 hadoop hadoop  1764 9月  12  2019 mapred-env.sh
-rw-r--r-- 1 hadoop hadoop  4113 9月  12  2019 mapred-queues.xml.template
-rw-r--r-- 1 hadoop hadoop  1027 6月  29 16:49 mapred-site.xml
drwxr-xr-x 2 hadoop hadoop  4096 9月  12  2019 shellprofile.d/
-rw-r--r-- 1 hadoop hadoop  2316 9月  12  2019 ssl-client.xml.example
-rw-r--r-- 1 hadoop hadoop  2697 9月  12  2019 ssl-server.xml.example
-rw-r--r-- 1 hadoop hadoop  2642 9月  12  2019 user_ec_policies.xml.template
-rw-r--r-- 1 hadoop hadoop    10 9月  12  2019 workers
-rw-r--r-- 1 hadoop hadoop  2250 9月  12  2019 yarn-env.cmd
-rw-r--r-- 1 hadoop hadoop  6056 9月  12  2019 yarn-env.sh
-rw-r--r-- 1 hadoop hadoop  2591 9月  12  2019 yarnservice-log4j.properties
-rw-r--r-- 1 hadoop hadoop  1159 6月  29 17:41 yarn-site.xml
hadoop@ben-VirtualBox:~/ws/hadoop-3.1.3$

etc/hadoop目錄

參考官網，進一步安裝 Pseudo-Distributed Mode 的 hadoop。

修改 etc/hadoop/core-site.xml；

修改 etc/hadoop/hdfs-site.xml：比官網多了 namenode、datanode 的配置，，默認是在 /tmp目錄下，重啟后數據丟失，下次由需要重新格式化，，整個HDFS中，只會有一個 namenode，但是，<value>屬性可以配置多個值（看到過一篇博文，首個目錄后的為備用）。

配置無密碼登錄（ssh localhost）：在用戶的 HOME目錄下執行，執行后會有 .ssh文件夾

ssh-keygen

上面的配置后，HDFS可用了，也可以執行 hadoop任務（描述准確嗎？）。

使用前，需要執行HDFS格式化：

$ bin/hdfs namenode -format

啟動HDFS：

$ sbin/start-dfs.sh

此時，使用 jps命令可以看到 namenode、datanode、SecondaryNameNode等Java進程：

使用 http://localhost:9870/ 可以看到一些hadoop的信息。

如官網所講，此時，可以使用 bin/hdfs 命令操作HDFS了，建立文件夾、操作文件等。

HDFS 就是一個以根目錄（/）為節點的分布式文件系統，目錄結構類似 Linux系統，但是，默認的根目錄下沒有內容。

接下來，配置YARN資源調度器。

修改etc/hadoop/mapred-site.xml：

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.application.classpath</name>
                <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
        </property>
</configuration>

修改etc/hadoop/yarn-site.xml：

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
    </property>
    <property>
            <name>yarn.nodemanager.env-whitelist</name>
            <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    <property>
            <name>yarn.nodemanager.vmem-check-enabled</name>
            <value>false</value>
    </property>
</configuration>

注意，

配置 yarn.nodemanager.vmem-check-enabled 是為了避免任務需要的內存超過虛擬內存大小時，任務自動失敗的問題。

使用下面的命令即可啟動yarn資源調度器：

$ sbin/start-yarn.sh

啟動成功，使用 jps命令可以看到其進程：NodeManager、ResourceManager：

~/ws/hadoop-3.1.3$ sbin/start-yarn.sh
Starting resourcemanager
Starting nodemanagers
hadoop@ben-VirtualBox:~/ws/hadoop-3.1.3$ jps
4193 SecondaryNameNode
3942 DataNode
5320 NodeManager
5130 ResourceManager
3772 NameNode
5647 Jps
~/ws/hadoop-3.1.3$