本机:win10
python3.5.4
spark3.0.0
JDK13.0.1
scala2.13.1
hadoop2.7.7
shell的交互式环境是帮助你调试程序的!
情况一:如果想打开scala版本的shell
终端输入 spark-shell
进入scala的shell(由于没有添加--master参数,因此默认进入 local[*]模式)
// 采用本地模式,在4个CPU核心上运行spark-shell spark-shell --master local[4]
// 在classpath中添加code.jar依赖 spark-shell --master local[4] --jars code.jar
// 执行“spark-shell --help”命令,获取完整的选项列表
spark-shell --help
退出scala交互环境
:quit
情况二: 打开python版本的Spark shell,也就是PySpark shell
若没有配置spark环境需要:
进入你的spark目录然后输入:
bin\pyspark (windows)
若已经配置了spark环境
终端输入 pyspark
进入python
补充一点:
进入shell之后,输入 sc
可以查看计算内核
根据《spark快速大数据分析》介绍:
每个spark应用都由一个 驱动器程序 来发起集群上的而各种并行操作。 驱动器程序可以是spark shell本身。
驱动器程序通过一个SparkContext的对象来访问Spark,充当连接。
在启动或者jupyter时,就已经自动创建了一个SparkContext对象,用sc变量表示。
有了SparkContext对象才可以创建RDD(弹性分布式数据集)。