本機:win10
python3.5.4
spark3.0.0
JDK13.0.1
scala2.13.1
hadoop2.7.7
shell的交互式環境是幫助你調試程序的!
情況一:如果想打開scala版本的shell
終端輸入 spark-shell
進入scala的shell(由於沒有添加--master參數,因此默認進入 local[*]模式)
// 采用本地模式,在4個CPU核心上運行spark-shell spark-shell --master local[4]
// 在classpath中添加code.jar依賴 spark-shell --master local[4] --jars code.jar
// 執行“spark-shell --help”命令,獲取完整的選項列表
spark-shell --help

退出scala交互環境
:quit
情況二: 打開python版本的Spark shell,也就是PySpark shell
若沒有配置spark環境需要:
進入你的spark目錄然后輸入:
bin\pyspark (windows)
若已經配置了spark環境
終端輸入 pyspark
進入python

補充一點:
進入shell之后,輸入 sc
可以查看計算內核

根據《spark快速大數據分析》介紹:
每個spark應用都由一個 驅動器程序 來發起集群上的而各種並行操作。 驅動器程序可以是spark shell本身。
驅動器程序通過一個SparkContext的對象來訪問Spark,充當連接。
在啟動或者jupyter時,就已經自動創建了一個SparkContext對象,用sc變量表示。
有了SparkContext對象才可以創建RDD(彈性分布式數據集)。
