python環境 導入pyspark.sql
1.linux系統下,spark讀取hive表
配置文件: 先將hive-site.xml放入linux spark內的conf內 //hive和linux下的spark連接 將jar包 mysql-connector-java.jar放入linux spark內的jars
如圖:
2.在windows系統內,配置spark
配置文件: 將linux內的spark/conf文件替換掉windows下的conf文件,hive-site.xml內的ip根據自己實際情況改動 將mysql-connector-java.jar拷入windows 下spark/jars內
3.PyChrome下測試
方式一:配置環境變量 自動讀取
spark = SparkSession.builder.master("local[*]")\ .appName("test").enableHiveSupport().getOrCreate() read_df=spark.sql("select * from dm_events.dm_usereventfinal limit 1") read_df.show()
方式二:不需配置環境變量
spark = SparkSession.builder.master("spark://192.168.142.197:7077") \ .config("hive.metastore.uris","thrift://192.168.142.197:9083")\ .appName("test").enableHiveSupport().getOrCreate() read_df = spark.sql("select * from dm_events.dm_usereventfinal limit 1") read_df.show()
注:也可以嘗試直接DOS內嘗試
>>pyspark >>spark.sql("sql_sentence").show()