036 SQLContext和HiveContext

本文转载自查看原文 2017-04-25 15:43 1319 Spark的学习

1.SqlContext　

　SQLContext依赖SparkContext
　　　　功能：支持SparkSQL操作(不依赖Hive)
　　　　SQLContext在一个JVM中默认允许存在多个

　　　　只有SQLContext支持序列化与反序列化。

2.HiveContext

　　继承了SQLContext
　　HiveContext是SparkSQL读取Hive表数据的入口

　　继承自SQLContext，重写了一些方法。

　　发现sqlContext的类型是HiveContext，所以以前的示例可以直接进行操作hive。

3.SparkSQL

　　SparkCore
　　　　入口：SparkContext
　　　　核心抽象：RDD
　　SparkSQL
　　　　入口：SQLContext
　　　　核心抽象：DataFrame

4.SparkSQL底层优化

　　两张表进行join: 对于表数据小于参数spark.sql.autoBroadcastJoinThreshold(10485760)设置值的时候，将数据广播变量

5.补充

　　rdd.foreachPartition(iter => {
　　　　// 如果在这里创建一个SQLContext的话，相当于每个分区都创建一个SQLContext===>可能导致OOM异常(Perm Space)
　　　　// 解决方案：直接在driver中创建一个SQLContext对象，然后直接在各个分区中使用 --> SQLContext支持序列化
　　})

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 理解Spark SQL(二）—— SQLContext和HiveContext SQLContext、HiveContext自定义函数注册 SparkSession、SparkContext、SQLContext和HiveContext之间的区别。 SparkSQL——HiveContext的使用 spark集成hivecontext配置【036】◀▶ 自己写的程序源代码 error: not found: value sqlContext/import sqlContext.implicits._/error: not found: value sqlContext /import sqlContext.sql/Caused by: java.net.ConnectException: Connection refused idea在本地调试，spark创建hiveContext的时候报错算法笔记_036:预排序（Java）树莓派进阶之路 (036) - 树莓派的音频