标签【SparkSQL】 - 码上欢乐

Spark的DataFrame的窗口函数使用

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数，像row_number这些，平时写 ...

SparkSQL读取HBase数据

这里的SparkSQL是指整合了Hive的spark-sql cli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）. 本质上就是通过Hive访问HBase表，具体就是通过hive-h ...

如果在本地windows测试的时候，不能加.enableHiveSupport()： val spark = SparkSession.builder() .master("") ...

object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession ...

Spark SQL window functions遇到的问题

在使用org.apache.spark.sql.functions中的Window functions过程中，遇到了几个棘手的问题，经过不断搜寻和多次试验，终于找到了解决方法。首先看例子： ...

SparkSQL-通过JDBC读写mysql数据库

object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSessio ...

【前言：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其他任务无法正常执行，甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积，以及如何事 ...

Spark SQL 小文件问题处理

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼 ...

我的Spark SQL单元测试实践

最近加入一个Spark项目，作为临时的开发人员协助进行开发工作。该项目中不存在测试的概念，开发人员按需求进行编码工作后，直接向生产系统部署，再由需求的提出者在生产系统检验程序运行结果的正确性。在这种原 ...

...