1. 建立分區表 create table 單分區表:其中分區字段是partdate,注意分區字段不能和表字段一樣,否則會報重復的錯 多分區表:id在前,address在后,注意多個 ...
1. 建立分區表 create table 單分區表:其中分區字段是partdate,注意分區字段不能和表字段一樣,否則會報重復的錯 多分區表:id在前,address在后,注意多個 ...
在linux上設置定時任務或者使用shell腳本都可以執行python代碼;其中定時任務的設置在命令 crontab -e 中可以查看和設置。 假設目前有一個python腳本: ...
mysql中的group_concat分組連接功能相當強大,可以先分組再連接成字符串,還可以進行排序連接。但是hive中並沒有這個函數,那么hive中怎么實現這個功能呢? 這里要用到:concat_ ...
hive的部分字符串函數,包括: 1. 小寫:lower 或者 lcase 函數 2. upper 或者 ucase 函數 3. 求字符串長度 length 函數 ...
最近遇到一個神奇的hive功能:lateral view explode,感覺與Mysql中的group concat相反,將原本在一起的數據拆分成多行形成虛擬表,再與原表進行笛卡爾積。 一般模式: ...
在文件已經導入(存入)hdfs之后,需要建表進行映射才可以show tables。 現在假設文件已導入該hdfs目錄: /apps/hive/warehouse/db_name.db/tb_name ...
類似於mysql,hive中也有處理日期和時間的方法。 1. 日期轉時間戳:unix_timestamp 2. 時間戳轉日期:from_unixtime 3. to_ ...
最近執行pyspark時,直接讀取hive里面的數據,經常遇到幾個問題: 1. java.io.IOException: Not a file —— 然而事實上文件是存在的,是 hdfs 的默認路 ...
pyspark可以直接將DataFrame格式數據轉成table,也可在程序中執行sql代碼。 1. 首先導入庫和環境,os.environ在系統中有多個python版本時需要設置 ...
pyspark可用於讀取textfile格式的hive表格。 1. 查看hive表的屬性方法(在hive或者spark-sql命令行均可): 查詢建表信息: 查詢表的屬性信息 (可 ...