近幾年大數據越來越火熱。由於工作需要以及個人興趣,最近開始學習大數據相關技術。學習過程中的一些經驗教訓希望能通過博文沉淀下來,與網友分享討論,作為個人備忘。
第一篇,在win7虛擬機下搭建hadoop2.6.0偽分布式環境。
1. 所需要的軟件
使用Vmware 11.0搭建虛擬機,安裝Ubuntu 14.04.2系統。
Jdk 1.7.0_80
Hadoop 2.6.0
2. 安裝vmware和ubuntu
略
3. 在ubuntu中安裝JDK
將jdk解壓縮到目錄:/home/vm/tools/jdk
在~/.bash_profile中配置環境變量,並通過source ~/.bash_profile生效。
#java export JAVA_HOME=/home/vm/tools/jdk export JRE_HOME=/home/vm/tools/jdk/jre export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH |
檢驗jdk安裝是否成功。
4. 配置ssh信任關系,實現無密碼登錄
4.1 安裝ssh
Ubuntu默認安裝了ssh客戶端,但沒有安裝ssh服務端,因此可以通過apt-get安裝。
安裝ssh-server:sudo apt-get install openssh-server
如果沒有ssh客戶端,也可以通過apt-get安裝。
安裝ssh-client:sudo apt-get install openssh-client
啟動ssh-server:sudo service ssh start
啟動以后,通過ps –aux | grep sshd查看ssh服務器是否安裝成功。
4.2 配置ssh信任關系
生成機器A的公私密鑰對:ssh-keygen -t rsa,之后一路回車。在~/.ssh目錄下生成公鑰id_rsa.pub,私鑰id_ras。
拷貝機器A的id_rsa.pub到機器B的認證文件中:
cat id_rsa.pub >> ~/.ssh/authorized_keys
這時候機器A到機器B的信任關系就建立好了,此時在機器A可以不需要密碼直接ssh登錄機器B了。
本例中機器A和B是同一台機器,配置ssh信任關系以后可以使用ssh localhost或者ssh 機器IP地址來驗證。
5. 安裝hadoop2.6.0
5.1 解壓hadoop2.6.0
從官網下載hadoop-2.6.0.tar.gz,解壓到目錄/home/vm/tools/hadoop,並配置~/.bash_profile環境變量。通過source ~/.bash_profile生效。
#hadoop export HADOOP_HOME=/home/vm/tools/hadoop export PATH=$HADOOP_HOME/bin:$PATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" |
5.2 修改配置文件
修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh和yarn-evn.sh,配置JAVA_HOME路徑:
修改$HADOOP_HOME/etc/hadoop/slaves,增加本機IP地址:
cat "192.168.62.129" >> slaves
修改$HADOOP_HOME/etc/hadoop/下的幾個重要的*-site.xml:
core-site.xml 192.168.62.129是我虛擬機的IP地址
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.62.129:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/vm/app/hadoop/tmp</value> <description>a base for other temporary directories.</description> </property> </configuration> |
hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/vm/app/hadoop/dfs/nn</value> </property> <property> <name>dfs.namenode.data.dir</name> <value>file:/home/vm/app/hadoop/dfs/dn</value> </property> <property> <name>dfs.permissions</name> <value>false</value> <description> permission checking is turned off </description> </property> </configuration> |
mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>hdfs://192.168.62.129:9001</value> </property> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> |
yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> |
5.3 格式化文件系統
在$HADOOP_HOME下執行bin/hdfs namenode –format格式化文件系統
5.4 啟停
在$HADOOP_HOME下執行sbin/start-dfs.sh和sbin/start-yarn.sh啟動hadoop集群,執行sbin/stop-dfs.sh和sbin/stop-yarn.sh停止hadoop集群。
啟動過程例如:
啟動完畢進程如下:
6. 查詢集群信息
8088端口,查看All Applications信息:
50070端口,查看hdfs信息:
7. 驗證hadoop環境搭建是否成功
7.1 驗證hdfs是否正常
可以使用各種hdfs命令測試。例如:
hdfs dfs -ls ./
hdfs dfs -put file.1 ./
hdfs dfs -get ./file1
hdfs dfs -rm -f ./file.1
hdfs dfs -cat ./file1
hdfs dfs -df -h
7.2 驗證map/reduce計算框架是否正常
在$HADOOP_HOME目錄下執行:bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount ./count_in/ ./count_out/
其中./count_in/提前在hdfs集群創建,統計該目錄下所有文件的單詞數量,輸出到./count_out/目錄。
執行過程示例如下:
執行完畢生成結果:
至此,Hadoop2.6.0的偽分布式環境搭建完成。