標簽【hdfs-hive】 - 碼上歡樂

1. 建立分區表 create table 單分區表：其中分區字段是partdate，注意分區字段不能和表字段一樣，否則會報重復的錯多分區表：id在前，address在后，注意多個 ...

在linux上設置定時任務或者使用shell腳本都可以執行python代碼；其中定時任務的設置在命令 crontab -e 中可以查看和設置。假設目前有一個python腳本： ...

mysql中的group_concat分組連接功能相當強大，可以先分組再連接成字符串，還可以進行排序連接。但是hive中並沒有這個函數，那么hive中怎么實現這個功能呢？這里要用到：concat_ ...

hive的部分字符串函數，包括： 1. 小寫：lower 或者 lcase 函數 2. upper 或者 ucase 函數 3. 求字符串長度 length 函數 ...

最近遇到一個神奇的hive功能：lateral view explode，感覺與Mysql中的group concat相反，將原本在一起的數據拆分成多行形成虛擬表，再與原表進行笛卡爾積。一般模式： ...

在文件已經導入（存入）hdfs之后，需要建表進行映射才可以show tables。現在假設文件已導入該hdfs目錄： /apps/hive/warehouse/db_name.db/tb_name ...

類似於mysql，hive中也有處理日期和時間的方法。 1. 日期轉時間戳：unix_timestamp 2. 時間戳轉日期：from_unixtime 3. to_ ...

最近執行pyspark時，直接讀取hive里面的數據，經常遇到幾個問題： 1. java.io.IOException: Not a file —— 然而事實上文件是存在的，是 hdfs 的默認路 ...

pyspark可以直接將DataFrame格式數據轉成table，也可在程序中執行sql代碼。 1. 首先導入庫和環境，os.environ在系統中有多個python版本時需要設置 ...

pyspark可用於讀取textfile格式的hive表格。 1. 查看hive表的屬性方法（在hive或者spark-sql命令行均可）：查詢建表信息：查詢表的屬性信息 (可 ...