pyspark讀取textfile形成DataFrame以及查詢表的屬性信息

本文轉載自查看原文 2020-03-14 19:28 2996 hive/ Pyspark/ hdfs-hive/ python相關文檔/ pyspark/ DataFrame/ Python

pyspark可用於讀取textfile格式的hive表格。

1. 查看hive表的屬性方法（在hive或者spark-sql命令行均可）：

查詢建表信息：

show create table database_name.table_name;

查詢表的屬性信息 (可看到表的格式信息例如，InputFormat)：

desc formatted database_name.table_name;

查看表結構：

desc database_name.table_name;

查看分區信息：

show partitions database_name.table_name;

2. 首先導入庫文件，進行環境配置

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
from pyspark.sql.types import StructField, StructType, StringType

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"

conf = SparkConf().setAppName('test_text')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

3. 讀取textfile格式數據（因為hive表可能以該形式保存）形成DataFrame數據：spark.read.text；類似，讀取csv格式可用spark.read.csv

txt_File = r"hdfs://host:port/apps/hive/warehouse/數據庫名.db/表名"
df = spark.read.text(txt_File) # DataFrame data

4. 基本操作

df.columns：顯示列名

df.take(2)：取前2條，Row格式

df.toPandas()：將DataFrame格式的數據轉成Pandas的DataFrame格式數據

df.collect()：收集所有數據

df.show()：顯示數據；df.show(n)表示顯示前n行

參考：

https://www.cnblogs.com/dozn/p/9040237.html

https://blog.csdn.net/u011712163/article/details/89887653

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 （2）pyspark建立RDD以及讀取文件成dataframe PySpark的DataFrame處理方法（4）pyspark---dataframe清理 PySpark DataFrame選擇某幾行 PySpark—DataFrame筆記 pyspark使用-dataframe操作 pyspark dataframe 常用操作（3）pyspark----dataframe觀察 spark textFile讀取多個文件 python環境下使用pyspark讀取hive表