第2篇:启动spark中的python 和 scala的shell


本机:win10

python3.5.4

spark3.0.0

JDK13.0.1

scala2.13.1

hadoop2.7.7

 shell的交互式环境是帮助你调试程序的!

情况一:如果想打开scala版本的shell

终端输入  spark-shell 

                进入scala的shell(由于没有添加--master参数,因此默认进入 local[*]模式)

 

// 采用本地模式,在4个CPU核心上运行spark-shell

spark-shell --master local[4]

 

// 在classpath中添加code.jar依赖
spark-shell --master local[4] --jars code.jar  
// 执行“spark-shell --help”命令,获取完整的选项列表
spark-shell --help

 退出scala交互环境

:quit

情况二: 打开python版本的Spark shell,也就是PySpark shell

若没有配置spark环境需要:

           进入你的spark目录然后输入:

                                                         bin\pyspark   (windows)

若已经配置了spark环境

          终端输入  pyspark  

          进入python

 

补充一点:

         进入shell之后,输入    sc

                                        可以查看计算内核

 根据《spark快速大数据分析》介绍:

         每个spark应用都由一个 驱动器程序 来发起集群上的而各种并行操作。   驱动器程序可以是spark shell本身。

         驱动器程序通过一个SparkContext的对象来访问Spark,充当连接。

         在启动或者jupyter时,就已经自动创建了一个SparkContext对象,用sc变量表示。

        有了SparkContext对象才可以创建RDD(弹性分布式数据集)。

      

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM