1. 建立分区表 create table 单分区表:其中分区字段是partdate,注意分区字段不能和表字段一样,否则会报重复的错 多分区表:id在前,address在后,注意多个 ...
1. 建立分区表 create table 单分区表:其中分区字段是partdate,注意分区字段不能和表字段一样,否则会报重复的错 多分区表:id在前,address在后,注意多个 ...
在linux上设置定时任务或者使用shell脚本都可以执行python代码;其中定时任务的设置在命令 crontab -e 中可以查看和设置。 假设目前有一个python脚本: ...
mysql中的group_concat分组连接功能相当强大,可以先分组再连接成字符串,还可以进行排序连接。但是hive中并没有这个函数,那么hive中怎么实现这个功能呢? 这里要用到:concat_ ...
hive的部分字符串函数,包括: 1. 小写:lower 或者 lcase 函数 2. upper 或者 ucase 函数 3. 求字符串长度 length 函数 ...
最近遇到一个神奇的hive功能:lateral view explode,感觉与Mysql中的group concat相反,将原本在一起的数据拆分成多行形成虚拟表,再与原表进行笛卡尔积。 一般模式: ...
在文件已经导入(存入)hdfs之后,需要建表进行映射才可以show tables。 现在假设文件已导入该hdfs目录: /apps/hive/warehouse/db_name.db/tb_name ...
类似于mysql,hive中也有处理日期和时间的方法。 1. 日期转时间戳:unix_timestamp 2. 时间戳转日期:from_unixtime 3. to_ ...
最近执行pyspark时,直接读取hive里面的数据,经常遇到几个问题: 1. java.io.IOException: Not a file —— 然而事实上文件是存在的,是 hdfs 的默认路 ...
pyspark可以直接将DataFrame格式数据转成table,也可在程序中执行sql代码。 1. 首先导入库和环境,os.environ在系统中有多个python版本时需要设置 ...
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: 查询表的属性信息 (可 ...