spark開發環境搭建(linux環境) - 碼上歡樂

相關內容簡體繁體

spark開發環境搭建(linux環境)

本文轉載自查看原文 2018-05-05 13:58 999

開發環境總體版本信息如下：

1、linux：centos 6.8，安裝過程參見 http://www.cnblogs.com/zhwyxuhui/p/8983663.html

2、java版本：jdk-8u172-linux-x64.tar.gz

3、hadoop版本：hadoop-3.1.0.tar.gz

4、scala版本：scala-2.12.6.tgz

5、python版本：Python-3.6.5.tgz

6、spark版本：spark-2.3.0-bin-hadoop2.7.tgz

7、zookeeper版本：zookeeper-3.4.10.tar.gz

8、hive版本：

9、kafka版本：

10、服務器集群：192.168.0.110(master)，192.168.0.111(slave1)，192.168.0.112(slave2)

一、java的安裝

1、上傳jdk安裝包到/usr/local/lib目錄下，並解壓縮

2、把解壓的文件夾復制到另外兩台機子

3、三台服務器分別修改bigdata用戶的環境變量

4、使配置生效並驗證

二、hadoop的安裝

1、bigdata用戶家目錄下創建目錄bigdata，上傳hadoop安裝包並解壓

2、進入hadoop配置文件目錄，修改hadoop配置

3、修改core-site.xml，添加紅色方框的內容

4、修改hdfs-site.xml，並創建對應的目錄

5、修改yarn-site.xml

6、修改workers（老版本為slaves）

7、修改hadoop-env.sh，增加JAVA_HOME

8、把master上配置好的hadoop分發到每一個slave上

9、只需在master上bigdata用戶下配置環境變量

10、使環境變量生效並檢查

11、首次運行hdfs，需要先格式化hdfs【 hdfs namenode -format 】，然后啟動hdfs【start-dfs.sh】

12、可訪問http://192.168.0.110:9870【192.168.0.110為master的ip地址，老版本hadoop的端口為50070】看下是否部署成功；如需停止hdfs，使用【stop-dfs.sh】

13、也可輸入名jps，查看是否有以下進程

14、啟動yarn【start-yarn.sh】

15、訪問http://192.168.0.110:8088/cluster，查看yarn是否正常工作，停止yarn使用【stop-yarn.sh】

16、也可輸入名jps，查看是否有以下進程

綜上，hadoop集群安裝完畢！

三、scala的安裝

1、切換到root用戶下，下載scala並上傳到/usr/local/lib目錄下，然后解壓

2、把解壓后的文件分發到slave1和slave2

scp -r scala-2.12.6 root@slave1:/usr/local/lib

scp -r scala-2.12.6 root@slave2:/usr/local/lib

3、分別在三台服務器上修改bigdata用戶的環境變量

4、驗證環境變量是否生效

5、運行scala命令驗證是否安裝成功，並按ctrl+z退出

四、python的安裝

1、在集群上運行pyspark，需要先安裝zlib和gcc相關的軟件包

yum -y install gcc*

2、下載python安裝包，並上傳，然后解壓

3、進入/usr/local/lib/，修改Modules/Setup.dist【老版本是Setup】，找到紅色一行，並把注釋去掉

4、執行./configure

5、make

6、make install

7、查看系統原有python版本，並重命名

8、修改/usr/bin/yum

9、重新建立python的軟連接

7、執行python命令，檢查是否安裝好

五、spark的安裝

1、下載並上傳spark安裝文件到bigdata用戶家目錄下的bigdata目錄下，然后解壓

2、配置slaves

3、配置spark-env.sh

4、把配置好的spark分發slave1和slave2上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

5、在master上配置環境變量

source ~/.bash_profile

6、啟動spark

7、確認spark已經啟動【jps命令，或者訪問http://192.168.0.110:8080】

8、測試spark代碼【ctrl+z退出】

六、zookeeper的安裝

1、下載並上傳zookeeper文件，然后解壓

2、修改配置文件

3、創建配置文件配置的目錄

4、將配置好的zookeeper分發到slave1和slave2

5、分別在3台服務器的~/bigdata/zookeeper/data目錄中新增文件myid並修改

master上myid的內容為：0

slave1上myid的內容為：1

slave2上myid的內容為：2

6、分別到3台服務器中啟動節點zk服務

7、查看每一個服務器上的zk的狀態

七、hive的安裝

1、安裝mysql

安裝：yum install -y mysql-server

啟動：service mysqld start

修改root用戶密碼：mysqladmin -u root password 'root'

創建數據庫hive並授權：

2、下載並上傳hive安裝包，然后解壓

3、進入配置目錄【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】，修改配置文件hive-site.xml

4、編輯hive-env.sh

5、下載mysql的jdbc驅動mysql-connector-java-5.1.44-bin.jar，上傳/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

6、配置master的環境變量

source ~/.bash_profile

7、創建hive-site.xml里面配置的目錄並授權

8、指定hive數據庫類型並初始化

9、驗證hive的mysql數據庫是否安裝成功【hive數據庫下面是否有表】

10、運行hive前首先要確保meta store服務已經啟動：先創建hive運行日志目錄logs，再運行HIVE

驗證：

運行HIVE

八、kafka的安裝

1、下載kafka並上傳，然后解壓

2、創建日志目錄，修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

3、將kafka分發到slave1 和 slave2

4、分別修改slave1和slave2上面的server.properties文件

slave1：broker.id=1

slave2：broker.id=2

5、分別在三台服務器上啟動broker server

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

6、在master上創建topic

7、查看topic

8、啟動producer發送消息

9、啟動consumer消費消息

10、效果如下

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark編譯及spark開發環境搭建 idea 的搭建 maven spark開發環境 Spark Idea Maven 開發環境搭建 Linux環境搭建vue開發環境 linux 下 eclipse 開發環境的搭建 Linux下Python開發環境搭建 linux搭建gtk的開發環境 Linux下搭建Vue開發環境 Qt開發環境搭建(Linux) Linux下golang開發環境搭建

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM