标签【Spark的学习】

035 spark与hive的集成

一：介绍 1.在spark编译时支持hive 　　 2.默认的db 　　当Spark在编译的时候给定了hive的支持参数，但是没有配置和hive的集成，此时默认使用hive自带的元数据管 ...

033 Java Spark的编程

1.Java SparkCore编程　　入口是：JavaSparkContext 　　　　基本的RDD是：JavaRDD 　　　　其他常用RDD: JavaPairRDD 　　JavaRDD和J ...

一：打包成jar 1.修改代码　　 2.使用maven打包　　但是目录中有中文，会出现打包错误　　 3.第二种方式　　 4.下一步　　 5. ...

一：使用 1.实质　　提供JDBC/ODBC连接的服务　　服务运行方式是一个Spark的应用程序，只是这个应用程序支持JDBC/ODBC的连接，　　所以：可以通过应用的4040页面来进行 ...

024 关于spark中日志分析案例

1.四个需求　　需求一：求contentsize的平均值、最小值、最大值　　需求二：请各个不同返回值的出现的数据 ===> wordCount程序　　需求三：获取访问次数超过N次的I ...

043 hive数据同步到mysql

一：意义 1.意义　　如果可以实现这个功能，就可以使用spark代替sqoop，功能程序就实现这个功能。二：hive操作 1.准备数据　　启动hive 　　　　否则报错，因 ...

一：History日志聚合的配置 1.介绍　　Spark的日志聚合功能不是standalone模式独享的，是所有运行模式下都会存在的情况　　默认情况下历史日志是保存到tmp文件夹中的　　 ...

068 mapWithState函数的讲解

1.问题　　主要是updateStateByKey的问题　　有的值不需要变化的时候，还会再打印出来。　　每个批次的数据都会出现，如果向redis保存更新的时候，会把不需要变化的值也更新，这 ...

一：目标 1.目标　　在yarn的8080页面可以跳转到spark的日志18080页面。　　因为在运行spark之后，看对应的job的日志，这样直接连接，更合理直接。 2.总结　 ...

一：使用sparksql开发 1.sparksql开发的两种方式　　HQL：SQL语句开发　　　　eq : sqlContext.sql("xxxx") 　　DSL : sparkSql中 ...