Spark讀取parquet文件

本文轉載自查看原文 2020-08-27 19:51 1780 spark

[root@centos00 ~]$ cd /opt/cdh5.14.2/hadoop-2.6.0-cdh5.14.2/
[root@centos00 hadoop-2.6.0-cdh5.14.2]$ sbin/hadoop-daemon.sh start namenode
[root@centos00 hadoop-2.6.0-cdh5.14.2]$ sbin/hadoop-daemon.sh start datanode
[root@centos00 hadoop-2.6.0-cdh5.14.2]$ bin/hdfs dfs -ls /input/dept
Found 3 items
-rw-r--r--   1 root supergroup          0 2020-08-27 20:44 /input/dept/_SUCCESS
-rw-r--r--   1 root supergroup        484 2020-08-27 20:44 /input/dept/part-00000-247a5279-306d-4cae-a85b-4d0196f39ebc-c000.snappy.parquet
-rw-r--r--   1 root supergroup        472 2020-08-27 20:44 /input/dept/part-00001-247a5279-306d-4cae-a85b-4d0196f39ebc-c000.snappy.parquet
           
[root@centos00 ~]$ cd /opt/cdh5.14.2/hive-1.1.0-cdh5.14.2/
[root@centos00 hive-1.1.0-cdh5.14.2]$ bin/hive --service metastore &
           
[root@centos00 hadoop-2.6.0-cdh5.14.2]$ cd ../spark-2.2.1-cdh5.14.2/
[root@centos00 spark-2.2.1-cdh5.14.2]$ sbin/start-master.sh
[root@centos00 spark-2.2.1-cdh5.14.2]$ sbin/start-slaves.sh
[root@centos00 spark-2.2.1-cdh5.14.2]$ bin/spark-shell --master local[2]
 
/*
 * 方法1
 */ 
scala> val p = Seq("/input/dept")
p: Seq[String] = List(/input/dept)
 
scala> val df = spark.read.load(p:_*)
df: org.apache.spark.sql.DataFrame = [value: string]
 
scala> df.show(false)
+-----------------------+
|value                  |
+-----------------------+
|10 ACCOUNTING  NEW YORK|
|20 RESERACH    DALLAS  |
|30 SALES   CHICAGO     |
|40 OPREARIONS  BOSTON  |
+-----------------------+
 
scala> df.printSchema
root
 |-- value: string (nullable = true)
 
/*
 * 方法2
 */  
scala> val df2 = spark.read.parquet("/input/dept")
df2: org.apache.spark.sql.DataFrame = [value: string]
 
scala> df2.show(false)
+----------------------+
|value                 |
+----------------------+
|10 ACCOUNTING  NEW YORK|
|20 RESERACH    DALLAS    |
|30 SALES   CHICAGO      |
|40 OPREARIONS  BOSTON  |
+----------------------+
 
scala> df2.printSchema
root
 |-- value: string (nullable = true)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scala讀取parquet文件 Spark SQL的Parquet那些事兒 spark讀取gz文件 spark讀取本地文件（Spark）Spark 讀取文件系統的數據 spark讀取壓縮文件 Spark讀取文件統計行數 Parquet文件結構筆記 spark讀取文件時對字符編碼的支持 spark讀取外部配置文件的方法