python环境下使用pyspark读取hive表

本文转载自查看原文 2020-12-24 12:26 2124 常见错误/ spark

python环境导入pyspark.sql

1.linux系统下,spark读取hive表

配置文件：
先将hive-site.xml放入linux spark内的conf内  //hive和linux下的spark连接
将jar包 mysql-connector-java.jar放入linux spark内的jars

　　如图：

2.在windows系统内，配置spark

配置文件：
将linux内的spark/conf文件替换掉windows下的conf文件，hive-site.xml内的ip根据自己实际情况改动
将mysql-connector-java.jar拷入windows 下spark/jars内

3.PyChrome下测试

方式一：配置环境变量自动读取

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from dm_events.dm_usereventfinal limit 1")
read_df.show()

方式二：不需配置环境变量

 spark = SparkSession.builder.master("spark://192.168.142.197:7077") \
         .config("hive.metastore.uris","thrift://192.168.142.197:9083")\
         .appName("test").enableHiveSupport().getOrCreate()
 read_df = spark.sql("select * from dm_events.dm_usereventfinal limit 1")
 read_df.show()

　注：也可以尝试直接DOS内尝试

>>pyspark
>>spark.sql("sql_sentence").show()

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pyspark写入hive(二) 使用 saveAsTable pyspark写入hive分区表 CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库 [Spark][Hive][Python][SQL]Spark 读取Hive表的小例子 Mac下搭建pyspark环境 mac下搭建pyspark环境 Linux下搭建PySpark环境 pyspark 使用时环境设置 linux 下 python 运行 pyspark pyspark读取pickle文件内容并存储到hive