Jupyter配置Spark開發環境

本文轉載自查看原文 2016-10-09 11:13 2188

兄弟連大數據培訓和大家一起探究Jupyter配置

Spark

開發環境

簡介

　　為Jupyter配置Spark開發環境，可以安裝全家桶–Spark Kernel或Toree，也可按需安裝相關組件。

　　考慮到一般人更喜歡一步到位，並且Toree將會代替Spark Kernel，故直接且僅需安裝Toree即可，不過下面還是給出了所有的安裝方法。

　　Spark Kernel的安裝

　　參照Spark Kernel支持的語言，安裝好Spark Kernel后，其默認可以支持Scala，Python，R，SQL，對應的Spark實現分別是Scala with Spark，Python with PySpark，R With SparkR，Spark SQL。

　　參照上述鏈接，要切換語言時，只需簡單的在語句前面加上%%scala/%%pyspark即可。當然，什么都不加時，默認語言為Scala。

　　另外，啟動Jupyter后，可直接在http://localhost:4040/jobs/監控所有作業。

　　Spark Kernel(舊的項目)

　　參照下面的安裝步驟進行即可，就是有些繁瑣。

　　Getting Started with theSpark Kernel

　　Guide to Integrating theSpark Kernel with Jupyter

　　Toree(新項目)

　　根據Spark Kernel的介紹，自從Spark Kernel變成Apache的孵化項目后，其最新倉庫已經遷移到了incubator-toree。

　　安裝時，參照Quick Start What isApache Toree ，僅需兩條命令即可完成安裝。

　　pip install toree

　　jupyter toree install--spark_home=your-spark-home12

　　值得注意的是:

　　Toree雖然還在孵化中，但已經能完成上述Spark Kernel的全部功能，即可支持PySpark，Spark SQL等。

　　該kernel安裝在/usr/local/share/jupyter/kernels/apache_toree_scala目錄下

　　Spark組件單獨安裝

　　除了安裝上面的方法安裝Spark的全家桶外，還可以按需對各組件進行安裝。

　　Scala Kernel的安裝

　　參照jupyter-scala安裝即可。

　　PySpark的安裝

　　PySpark: How to install andIntegrate with the Jupyter Notebook

　　Integrate Apache Spark withlatest IPython Notebook (Jupyter 4.x)

　　Running Spark ApplicationsUsing IPython and Jupyter Notebooks

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何基於Jupyter notebook搭建Spark集群開發環境 windows下spark開發環境配置 spark之開發環境配置（windows） Hadoop/Spark開發環境配置 Jupyter開發環境搭建 Jupyter Notebook通過toree配置PySpark開發環境及其工作原理 Spark集群 + Akka + Kafka + Scala 開發(1) : 配置開發環境 Anaconda中配置Pyspark的Spark開發環境 spark本地開發環境搭建及打包配置 CentOS6下配置Spark、Python開發環境記錄