python環境下使用pyspark讀取hive表


python環境 導入pyspark.sql

1.linux系統下,spark讀取hive表

配置文件:
先將hive-site.xml放入linux spark內的conf內  //hive和linux下的spark連接
將jar包 mysql-connector-java.jar放入linux spark內的jars

  如圖:

2.在windows系統內,配置spark

配置文件:
將linux內的spark/conf文件替換掉windows下的conf文件,hive-site.xml內的ip根據自己實際情況改動
將mysql-connector-java.jar拷入windows 下spark/jars內

3.PyChrome下測試

方式一:配置環境變量 自動讀取

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from dm_events.dm_usereventfinal limit 1")
read_df.show()  

方式二:不需配置環境變量

 spark = SparkSession.builder.master("spark://192.168.142.197:7077") \
         .config("hive.metastore.uris","thrift://192.168.142.197:9083")\
         .appName("test").enableHiveSupport().getOrCreate()
 read_df = spark.sql("select * from dm_events.dm_usereventfinal limit 1")
 read_df.show()

 注:也可以嘗試直接DOS內嘗試

>>pyspark
>>spark.sql("sql_sentence").show()


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM