标签【hdfs-hive】 - 码上欢乐

hive之建立分区表和分区

1. 建立分区表 create table 单分区表：其中分区字段是partdate，注意分区字段不能和表字段一样，否则会报重复的错多分区表：id在前，address在后，注意多个 ...

在linux上设置定时任务或者使用shell脚本都可以执行python代码；其中定时任务的设置在命令 crontab -e 中可以查看和设置。假设目前有一个python脚本： ...

hive中实现group_concat

mysql中的group_concat分组连接功能相当强大，可以先分组再连接成字符串，还可以进行排序连接。但是hive中并没有这个函数，那么hive中怎么实现这个功能呢？这里要用到：concat_ ...

hive的部分字符串函数，包括： 1. 小写：lower 或者 lcase 函数 2. upper 或者 ucase 函数 3. 求字符串长度 length 函数 ...

hive的lateral view explode 功能

最近遇到一个神奇的hive功能：lateral view explode，感觉与Mysql中的group concat相反，将原本在一起的数据拆分成多行形成虚拟表，再与原表进行笛卡尔积。一般模式： ...

从hdfs导入数据到hive表

在文件已经导入（存入）hdfs之后，需要建表进行映射才可以show tables。现在假设文件已导入该hdfs目录： /apps/hive/warehouse/db_name.db/tb_name ...

hive的日期和时间

类似于mysql，hive中也有处理日期和时间的方法。 1. 日期转时间戳：unix_timestamp 2. 时间戳转日期：from_unixtime 3. to_ ...

最近执行pyspark时，直接读取hive里面的数据，经常遇到几个问题： 1. java.io.IOException: Not a file —— 然而事实上文件是存在的，是 hdfs 的默认路 ...

pyspark可以直接将DataFrame格式数据转成table，也可在程序中执行sql代码。 1. 首先导入库和环境，os.environ在系统中有多个python版本时需要设置 ...

pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息：查询表的属性信息 (可 ...