Spark:使用Spark Shell的兩個示例
Python 行數統計
** 注意: **使用的是Hadoop的HDFS作為持久層,需要先配置Hadoop
命令行代碼
# pyspark
>>> lines = sc.textFile("/user/mint/README.md") # 創建一個名為lines的RDD.首先要確保README.md在HDFS文件系統相應的路徑中.這里的文檔是Spark在安裝目錄下,選擇其他文檔.
>>> lines.count() # 行數
>>> lines.first() # 顯示第一個元素,這里就是第一行
如果運行出錯,可以排查如下情況:
- Spark沒有運行
README.md
沒有放在對應的文件
結果示例
>>> lines = sc.textFile("README.md")
>>> lines.count()
99
>>> lines.first()
u'# Apache Spark'
>>> lines = sc.textFile("/user/mint/README.md")
>>> lines.first()
u'# Apache Spark'
Scala 行數統計
命令及結果示例
# spark-shell
scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
scala> lines.count()
res0: Long = 99
scala> lines.first()
res1: String = # Apache Spark