标签【BigData-Hadoop】

Hive:添加、删除分区

添加分区：已经创建好的分区表：分区字段包含：p_hour,p_city,p_loctype。根据分区字段p_loctype删除分区：删除日志： ...

创建测试表，来测试看看测试结果：第一步：使用insert into 插入数据到表中：第二步：不清理以上插入的记录，直接执行insert overwirte，并查询分 ...

hadoop fs 更多用法，请参考官网：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 以下是我的使用hadoop fs -du统计 ...

需求：由于一个大文件，在spark中加载性能比较差。于是把一个大文件拆分为多个小文件后上传到hdfs，然而在spark2.2下如何加载某个目录下多个文件呢? 测试结果： ...

几种给Dataset增加列的方式首先创建一个DF对象：第一种方式：使用lit()增加常量（固定值）可以是字符串类型，整型注意： lit()是spark自带 ...

JavaRDD 转化为 Dataset<Row>方案一：实体类作为schema定义规范，使用反射，实现JavaRDD转化为Dataset<Row> Student.jav ...

DataFrame写入hive API： registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据，可以看出此函数不能指定数据库和分 ...

背景：接到任务，需要在一个一天数据量在460亿条记录的hive表中，筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度：解析规则譬如：需要解析 ...

Spark:reduceByKey函数的用法

reduceByKey函数ＡＰＩ：该函数利用映射函数将每个K对应的V进行运算。其中参数说明如下： - func：映射函数，根据需求自定义； - partitioner：分区函 ...

　　在做spark开发过程中，时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。一般情况下通过hive的参数设置：通过df.repar ...