添加分区: 已经创建好的分区表: 分区字段包含:p_hour,p_city,p_loctype。 根据分区字段p_loctype删除分区: 删除日志: ...
添加分区: 已经创建好的分区表: 分区字段包含:p_hour,p_city,p_loctype。 根据分区字段p_loctype删除分区: 删除日志: ...
了解JVM GC原理非常重要,对于系统调优非常有用。如果一个系统频繁发生FULL GC,那么会造成系统响应卡顿,更严重的时候会导致系统崩溃。 JVM的内存空间 JVM的内存空间,从大的层面上来分析 ...
hadoop fs 更多用法,请参考官网:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 以下是我的使用hadoop fs -du统计 ...
为什么要使用广播(broadcast)变量? Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。进一步解释: ...
需求: 由于一个大文件,在spark中加载性能比较差。于是把一个大文件拆分为多个小文件后上传到hdfs,然而在spark2.2下如何加载某个目录下多个文件呢? 测试结果: ...
背景: 调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务,任务提交上去之后获取不到ApplicationId,更无法跟踪spark application的任 ...
几种给Dataset增加列的方式 首先创建一个DF对象: 第一种方式:使用lit()增加常量(固定值) 可以是字符串类型,整型 注意: lit()是spark自带 ...
JavaRDD 转化为 Dataset<Row>方案一: 实体类作为schema定义规范,使用反射,实现JavaRDD转化为Dataset<Row> Student.jav ...
DataFrame写入hive API: registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据,可以看出此函数不能指定数据库和分 ...
导入: 1)Spark Web UI主要依赖于流行的Servlet容器Jetty实现; 2)Spark Web UI(Spark2.3之前)是展示运行状况、资源状态和监控指标的前端,而这些 ...