python環境下使用pyspark讀取hive表

本文轉載自查看原文 2020-12-24 12:26 2124 常見錯誤/ spark

python環境導入pyspark.sql

1.linux系統下,spark讀取hive表

配置文件：
先將hive-site.xml放入linux spark內的conf內  //hive和linux下的spark連接
將jar包 mysql-connector-java.jar放入linux spark內的jars

　　如圖：

2.在windows系統內，配置spark

配置文件：
將linux內的spark/conf文件替換掉windows下的conf文件，hive-site.xml內的ip根據自己實際情況改動
將mysql-connector-java.jar拷入windows 下spark/jars內

3.PyChrome下測試

方式一：配置環境變量自動讀取

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from dm_events.dm_usereventfinal limit 1")
read_df.show()

方式二：不需配置環境變量

 spark = SparkSession.builder.master("spark://192.168.142.197:7077") \
         .config("hive.metastore.uris","thrift://192.168.142.197:9083")\
         .appName("test").enableHiveSupport().getOrCreate()
 read_df = spark.sql("select * from dm_events.dm_usereventfinal limit 1")
 read_df.show()

　注：也可以嘗試直接DOS內嘗試

>>pyspark
>>spark.sql("sql_sentence").show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pyspark寫入hive(二) 使用 saveAsTable pyspark寫入hive分區表 CDH 集群機器上部署 Jupyter notebook 使用 Pyspark 讀取 Hive 數據庫 [Spark][Hive][Python][SQL]Spark 讀取Hive表的小例子 Mac下搭建pyspark環境 mac下搭建pyspark環境 Linux下搭建PySpark環境 pyspark 使用時環境設置 linux 下 python 運行 pyspark pyspark讀取pickle文件內容並存儲到hive