Spark:使用Spark Shell的兩個示例

Python 行數統計

** 注意： **使用的是Hadoop的HDFS作為持久層，需要先配置Hadoop

命令行代碼

# pyspark
>>> lines = sc.textFile("/user/mint/README.md") # 創建一個名為lines的RDD.首先要確保README.md在HDFS文件系統相應的路徑中.這里的文檔是Spark在安裝目錄下,選擇其他文檔.
>>> lines.count() # 行數
>>> lines.first() # 顯示第一個元素，這里就是第一行

如果運行出錯,可以排查如下情況：

Spark沒有運行
README.md沒有放在對應的文件

結果示例

>>> lines = sc.textFile("README.md")
>>> lines.count()
99
>>> lines.first()
u'# Apache Spark'
>>> lines = sc.textFile("/user/mint/README.md")
>>> lines.first()
u'# Apache Spark'

Scala 行數統計

命令及結果示例

# spark-shell
scala> val lines  = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()
res0: Long = 99

scala> lines.first()
res1: String = # Apache Spark

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark Shell簡單使用 Spark-shell和Spark-Submit的使用 Spark之spark shell Spark SQL入門到實戰之（7）spark連接hive（spark-shell和eclipse兩種方式）運行Spark示例Spark Pi Spark DataSet 、DataFrame 一些使用示例 spark使用KryoRegistrator java代碼示例 spark Accumulator累加器使用示例 Spark源碼分析之Spark Shell（上）在spark2中的shell使用python3