在Win7虛擬機下搭建Hadoop2.6.0偽分布式環境

本文轉載自查看原文 2015-07-26 23:36 2437 Hadoop/ hadoop/ 大數據

近幾年大數據越來越火熱。由於工作需要以及個人興趣，最近開始學習大數據相關技術。學習過程中的一些經驗教訓希望能通過博文沉淀下來，與網友分享討論，作為個人備忘。

第一篇，在win7虛擬機下搭建hadoop2.6.0偽分布式環境。

1. 所需要的軟件

使用Vmware 11.0搭建虛擬機，安裝Ubuntu 14.04.2系統。

Jdk 1.7.0_80

Hadoop 2.6.0

2. 安裝vmware和ubuntu

略

3. 在ubuntu中安裝JDK

將jdk解壓縮到目錄：/home/vm/tools/jdk

在~/.bash_profile中配置環境變量，並通過source ~/.bash_profile生效。

#java

export JAVA_HOME=/home/vm/tools/jdk

export JRE_HOME=/home/vm/tools/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

檢驗jdk安裝是否成功。

4. 配置ssh信任關系，實現無密碼登錄

4.1 安裝ssh

Ubuntu默認安裝了ssh客戶端，但沒有安裝ssh服務端，因此可以通過apt-get安裝。

安裝ssh-server：sudo apt-get install openssh-server

如果沒有ssh客戶端，也可以通過apt-get安裝。

安裝ssh-client：sudo apt-get install openssh-client

啟動ssh-server：sudo service ssh start

啟動以后，通過ps –aux | grep sshd查看ssh服務器是否安裝成功。

4.2 配置ssh信任關系

生成機器A的公私密鑰對：ssh-keygen -t rsa，之后一路回車。在~/.ssh目錄下生成公鑰id_rsa.pub，私鑰id_ras。

拷貝機器A的id_rsa.pub到機器B的認證文件中：

cat id_rsa.pub >> ~/.ssh/authorized_keys

這時候機器A到機器B的信任關系就建立好了，此時在機器A可以不需要密碼直接ssh登錄機器B了。

本例中機器A和B是同一台機器，配置ssh信任關系以后可以使用ssh localhost或者ssh 機器IP地址來驗證。

5. 安裝hadoop2.6.0

5.1 解壓hadoop2.6.0

從官網下載hadoop-2.6.0.tar.gz，解壓到目錄/home/vm/tools/hadoop，並配置~/.bash_profile環境變量。通過source ~/.bash_profile生效。

#hadoop

export HADOOP_HOME=/home/vm/tools/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

5.2 修改配置文件

修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh和yarn-evn.sh，配置JAVA_HOME路徑：

修改$HADOOP_HOME/etc/hadoop/slaves，增加本機IP地址：

cat "192.168.62.129" >> slaves

修改$HADOOP_HOME/etc/hadoop/下的幾個重要的*-site.xml：

core-site.xml 192.168.62.129是我虛擬機的IP地址

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/vm/app/hadoop/tmp</value>

<description>a base for other temporary directories.</description>

</property>

</configuration>

hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/vm/app/hadoop/dfs/nn</value>

</property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/vm/app/hadoop/dfs/dn</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

permission checking is turned off

</description>

</property>

</configuration>

mapred-site.xml

<name>mapred.job.tracker</name>

</property>

<name>mapreduce.framework.name</name>

</property>

</configuration>

yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

5.3 格式化文件系統

在$HADOOP_HOME下執行bin/hdfs namenode –format格式化文件系統

5.4 啟停

在$HADOOP_HOME下執行sbin/start-dfs.sh和sbin/start-yarn.sh啟動hadoop集群，執行sbin/stop-dfs.sh和sbin/stop-yarn.sh停止hadoop集群。

啟動過程例如：

啟動完畢進程如下：

6. 查詢集群信息

8088端口，查看All Applications信息：

50070端口，查看hdfs信息：

7. 驗證hadoop環境搭建是否成功

7.1 驗證hdfs是否正常

可以使用各種hdfs命令測試。例如：

hdfs dfs -ls ./

hdfs dfs -put file.1 ./

hdfs dfs -get ./file1

hdfs dfs -rm -f ./file.1

hdfs dfs -cat ./file1

hdfs dfs -df -h

7.2 驗證map/reduce計算框架是否正常

在$HADOOP_HOME目錄下執行：bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount ./count_in/ ./count_out/

其中./count_in/提前在hdfs集群創建，統計該目錄下所有文件的單詞數量，輸出到./count_out/目錄。

執行過程示例如下：

執行完畢生成結果：

至此，Hadoop2.6.0的偽分布式環境搭建完成。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於hadoop2.6.0搭建5個節點的分布式集群 Hadoop安裝教程_單機/偽分布式配置_CentOS6.4/Hadoop2.6.0 Hadoop2.6.0(2.4~2.7)完全分布式搭建-入門向新手向詳細流程搭建hadoop偽分布式環境大數據在單機進行Hadoop的偽分布式安裝（安裝Linux~Ubuntu 的虛擬機~VirtualBox 和安裝 Hadoop） Hadoop2.0偽分布式平台環境搭建 Hadoop偽分布式HDFS環境搭建和使用 Hadoop2.x偽分布式環境搭建(一) 007 linux環境下的偽分布式環境搭建 Hadoop（二）搭建偽分布式集群