spark-shell讀取parquet文件

本文轉載自查看原文 2019-09-21 14:03 1039 spark/ parquet

1、進入spark-shell窗口

2、

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

3、

val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

hdfs://cdp是defaultFS，也可以不寫，如下:

val parquetFile2 = sqlContext.parquetFile("/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

4、

parquetFile.take(30).foreach(println)

參考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark讀取parquet文件使用spark-shell從本地讀取文件不成功的的操作。本地啟動spark-shell 執行spark-shell報錯： spark-shell啟動集群 Spark記錄-Spark-Shell客戶端操作讀取Hive數據 Spark操作parquet文件 Spark-shell和Spark-Submit的使用 spark-shell啟動spark報錯 Spark2.1.0——剖析spark-shell