Windows 下部署 hadoop spark環境


一、先在本地安裝jdk

我這里安裝的jdk1.8,具體的安裝過程這里不作贅述

 

 

 

 

二、部署安裝maven

下載maven安裝包,並解壓

 

 

 

 

設置環境變量,MAVEN_HOME=D:\SoftWare\Maven\apache-maven-3.6.1

 

 

 

在path路徑添加;%MAVEN_HOME%\bin

 

打開本地終端驗證

 

 

 

 

 

三、安裝hadoop

先下載hadoop壓縮包    下載地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/

下載后解壓到本地

 

 

 

 

配置環境變量

 

計算機 –>屬性 –>高級系統設置 –>高級選項卡 –>環境變量 –> 單擊新建HADOOP_HOME

 

 

 HADOOP_HOME=D:\SoftWare\hadoop-2.6.0

 

 

Path環境變量下配置【%HADOOP_HOME%\bin;】變量

 

打開終端驗證一下hadoop是否安裝成功

 

 

 

 

給hadoop添加插件,添加到hadoop/bin目錄下

 

 

 

修改hadoop的配置文件,配置文件在路徑D:\SoftWare\hadoop-2.6.0\etc\hadoop下

修改core-site.xml

 

 

 

<configuration>
   <!--指定namenode的地址-->
  <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
  </property>
  
     <!--用來指定hadoop產生臨時文件的目錄-->
  <property>
        <name>hadoop.tmp.dir</name>
        <value>/D:/SoftWare/hadoop-2.6.0/tmp/</value>
  </property>
   
      <!--用於設置檢查點備份日志的最長時間-->
  <property>
        <name>fs.checkpoint.period</name>
        <value>3600</value>
  </property>
</configuration>

 

 

修改hdfs-site.xml

<configuration>
    <!--指定hdfs保存數據的副本數-->
  <property>
        <name>dfs.replication</name>
        <value>2</value>
  </property>
  
    <!--指定hdfs中namenode的存儲位置-->
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/D:/SoftWare/hadoop-2.6.0/tmp/dfs/namenode</value>
  </property>
  
    <!--指定hdfs中datanode的存儲位置-->
  <property>
        <name>dfs.datanode.data.dir</name>
        <value>/D:/SoftWare/hadoop-2.6.0/tmp/dfs/datanode</value>
  </property>
</configuration>

 

 

修改mapred-site.xml

<configuration>
  <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
  </property>
</configuration>

 

 

修改yarn-site.xml

 

 

<configuration>

<!-- Site specific YARN configuration properties -->

    <!--nodemanager獲取數據的方式是shuffle-->
      <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
      </property>

       <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>localhost</value>
      </property>
    
      <property>
            <name>yarn.log-aggregation-enable</name>
            <value>true</value>
      </property>
</configuration>

 

 

格式化系統文件

hadoop/bin下執行 hdfs namenode -format

 

 

 

 

格式化完畢后啟動hadoop,到hadoop/sbin下執行 start-dfs啟動hadoop

 

 

這個時候會自動打開另外兩個終端窗口,日志沒有報錯就行了,

 

 

 

打開瀏覽器訪問 http://localhost:50070

 

 

 

 

 

 

  啟動yarn

 

 

 

 

打開瀏覽器訪問  http://localhost:8088

 

 在hdfs創建文件夾

 

 

把本地的文本文件上傳到hdfs

 

 

 

 

然后運行hadoop 提供的demo,計算單詞數

 

 

 

 

 

 

四、安裝scala

下載scala的安裝包到本地

 

 雙擊

 

 

 

 

選擇安裝的路徑

 

 

 

 

 

 

 

配置scala的環境變量

 

 

 

 

 

 

 

設置 Path 變量:找到系統變量下的"Path"如圖,單擊編輯。在"變量值"一欄的最前面添加如下的路徑: %SCALA_HOME%\bin;%SCALA_HOME%\jre\bin;

 

 

設置 Classpath 變量:找到找到系統變量下的"Classpath"如圖,單擊編輯,如沒有,則單擊"新建":

  • "變量名":ClassPath
  • "變量值":.;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;

 

 

 

檢查環境變量是否設置好了:調出"cmd"檢查。單擊 【開始】,在輸入框中輸入cmd,然后"回車",輸入 scala,然后回車,如環境變量設置ok,你應該能看到這些信息

 

 

 

五、安裝spark

下載安裝包

 

 

解壓到需要安裝的路徑下

 

 

配置spark的環境變量

 

 

 

將spark的bin路徑添加到path中

 

 

cmd輸入spark-shell

 

 

 

spark已經安裝成功了!

 

 

六、在IDEA添加scala插件

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM