Hadoop下載與安裝
官網下載
打開Apache Hadoop官方網址http://hadoop.apache.org/
The requested file or directory is not on the mirrors.
It may be in our archive : http://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
可以使用迅雷等多線程下載工具來下載,支持斷點續傳。成功下載后得到hadoop-2.7.3.tar.gz壓縮文件,204M。請檢查壓縮包是否204M,瀏覽器下載的話可能會中斷。
上傳至虛擬機
通過ll或ls命令可以查看到已經上傳到虛擬機node1上的hadoop-2.7.3.tar.gz壓縮文件
解壓縮
需要將Hadoop安裝到/opt目錄下。
通過下面命令直接將hadoop-2.7.3.tar.gz解壓縮到/opt目錄下
tar -zxvf hadoop-2.7.3.tar.gz -C /opt
通過cd /opt/hadoop-2.7.3
命令切換到hadoop根目錄,然后通過ll
命令查看
目錄結構分析
如上圖Hadoop的目錄結構:
bin :Hadoop 最基本的管理腳本和使用腳本所在目錄,這些腳本是sbin目錄下管理腳本的基礎實現,用戶可以直接使用這些腳本管理和使用Hadoop 。
etc :Hadoop 配置文件所在的目錄,包括core-site.xml 、hdfs-site.xml 、mapred-site.xml 等從Hadoop 1.0 繼承而來的配置文件和yarn-site.xml 等Hadoop 2.0 新增的配置文件。
include :對外提供的編程庫頭文件(具體動態庫和靜態庫在lib 目錄中),這些頭文件均是用C++ 定義的,通常用於C++ 程序訪問HDFS 或者編寫MapReduce 程序。
lib :該目錄包含了Hadoop 對外提供的編程動態庫和靜態庫,與include目錄中的頭文件結合使用。
libexec :各個服務對應的shell 配置文件所在目錄,可用於配置日志輸出目錄、啟動參數(比如JVM 參數)等基本信息。
sbin :Hadoop 管理腳本所在目錄,主要包含HDFS 和YARN 中各類服務的啟動/ 關閉腳本。
share :Hadoop 各個模塊編譯后的jar 包所在目錄 。