第2篇:啟動spark中的python 和 scala的shell


本機:win10

python3.5.4

spark3.0.0

JDK13.0.1

scala2.13.1

hadoop2.7.7

 shell的交互式環境是幫助你調試程序的!

情況一:如果想打開scala版本的shell

終端輸入  spark-shell 

                進入scala的shell(由於沒有添加--master參數,因此默認進入 local[*]模式)

 

// 采用本地模式,在4個CPU核心上運行spark-shell

spark-shell --master local[4]

 

// 在classpath中添加code.jar依賴
spark-shell --master local[4] --jars code.jar  
// 執行“spark-shell --help”命令,獲取完整的選項列表
spark-shell --help

 退出scala交互環境

:quit

情況二: 打開python版本的Spark shell,也就是PySpark shell

若沒有配置spark環境需要:

           進入你的spark目錄然后輸入:

                                                         bin\pyspark   (windows)

若已經配置了spark環境

          終端輸入  pyspark  

          進入python

 

補充一點:

         進入shell之后,輸入    sc

                                        可以查看計算內核

 根據《spark快速大數據分析》介紹:

         每個spark應用都由一個 驅動器程序 來發起集群上的而各種並行操作。   驅動器程序可以是spark shell本身。

         驅動器程序通過一個SparkContext的對象來訪問Spark,充當連接。

         在啟動或者jupyter時,就已經自動創建了一個SparkContext對象,用sc變量表示。

        有了SparkContext對象才可以創建RDD(彈性分布式數據集)。

      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM