Hive 指定分隔符，將表導出到本地

本文轉載自查看原文 2018-09-05 10:04 4652 Hive & SQL

hive表的數據源有四種：

hbase

hdfs

本地

其他hive表

而hive表本身有兩種:

內部表和外部表。

而hbase的數據在hive中，可以建立對應的外部表（參看hive和hbase整合）

內部表和外部表

區別：刪除時，內部表刪除hadoop上的數據；而外部表不刪，其數據在外部存儲，hive表只是查看數據的形式，看時從外部讀入數據:

內部表：CREATETABLE tab(column1 STRING, column2 STRING);

外部表：用EXTERNAL 關鍵字，且必須在表結尾指定如下參數

CREATE EXTERNAL TABLE tab

(column1 STRING,

column2 STRING

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t'

stored as textfile

location 'hdfs://namenode/tmp/lmj/tab/';

分隔符的指定

有兩種方式

（1）DELIMITED方式：

ROW FORMAT DELIMITED

[FIELDS TERMINATED BY char]

[COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char]

[LINES TERMINATED BY char]

（2）SERDE方式：

SERDE serde_name [WITH SERDEPROPERTIES(property_name=property_value, property_name=property_value, ...)]

其中，[ROW FORMAT DELIMITED]關鍵字，是設置建表時加載數據所支持的列分隔符；

如果沒有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，則會自動使用自帶的 SerDe。

另外，建表時，用戶還要為表指定列，同時也會指定自定義的SerDe，Hive通過SerDe確定表的具體的列數據。

舉例如下:

內部表

  create table user_info (user_id int, cid string,ckid string, username string)
  row format delimited
  fields terminated by '\t'
  lines terminated by '\n';

外部表
  CREATE EXTERNAL TABLE test_1(id INT, name STRING, citySTRING)
  SORTED AS TEXTFILE
  ROW FORMAT DELIMITED
  FIELDS TERMINATED BY'\t’
  LOCATION ‘hdfs://http://www.cnblogs.com/..’

文件存儲格式

如上，用關鍵字[STORED AS file_format]設置加載數據的文件類型，默認采用[STORED AS TEXTFILE]。主要格式有

STORED AS

SEQUENCEFILE

| TEXTFILE

|RCFILE

|INPUTFORMATinput_format_classname

OUTPUTFORMAT output_format_classname

其中用STORED AS TEXTFILE 存儲純文本文件。如果數據需要壓縮，使用 STORED AS SEQUENCE 。Hive本身支持的文件格式只有：Text File，Sequence File。

導出到本地：

INSERT OVERWRITE local DIRECTORY '/home/rengang1/jypt/res.csv'

ROW FORMAT DELIMITED FIELDS TERMINATED BY','

select * from dev.dev_jiadian_user_yuge;

---------------------------------------------------------------------

數據導入與導出：
一．數據導入:
1.1導入內部表
（1）本地或者hdfs導入：
        LOAD DATA[LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLEtablename [PARTITION(partcol1=val1, partcol2=val2 ...)]
        區別是看有無關鍵字local，有local表示從本地路徑導入，無local表示從hadoop（hbase或hdfs）導入。
導入的前提是目標表必須存在。如果無表要先建表，再導入：
        CREATE TABLE myword(idSTRING, counts INT, dt STRING) row formatdelimitedfields terminated by ‘\t’;
（2）用hive表的select結果導入
INSERT OVERWRITE TABLE T1 SELECT * FROMT2;

其中，INSERT OVERWRITE TABLE表示覆蓋，刪除原數據；

而INSERT into TABLE 表示增量的插入，不刪除原數據。

另外，

刪除表：drop table if exists T1；

清空表：truncate table T1；

 

1.2 導入外部表：
建表時直接指定數據源（不能指定本地文件，必須是hdfs路徑）：
（1）Hdfs上數據導入hive：

	CREATE EXTERNAL TABLE wizad_mdm_dev_lmj_edition_20141120 (
	cookie_id STRING,
	guid STRING
	)      
	 ROWFORMAT DELIMITED
         FIELDSTERMINATEDBY ','
         LINESTERMINATEDBY '\n'
         storedas textfile
       	 LOCATION'/user/wizad/test/lmj/edition_compare/';
        其中，也可以用全路徑location'hdfs://namenode/user/wizad/test/lmj/edition_compare/';



（2）Hbase上數據導入hive表：

先指定參數

SET mapred.job.queue.name=queue3;

SEThbase.client.scanner.caching=5000;

SEThbase.zookeeper.quorum=datanode06,datanode07,datanode08;

SET zookeeper.znode.parent=/hbase;



有map類型結構，建表時需要指明：

CREATE EXTERNAL TABLE lxw2 (

key string,

value map<STRING,STRING>

)

STORED BY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES("hbase.columns.mapping" =":key,fixeddim:")

TBLPROPERTIES("hbase.table.name"="wizad_mdm_task_geely_hk_20141014"); 

 

查詢結果

SELECT KEY,dim_name,dim_value FROM lxw2

LATERAL VIEW explode(VALUE) myTable1AS dim_name,dim_value

--WHERE KEY = '000000054153796

 

這里，讀取Hbase庫的數據，可能會導入失敗，因為scan時間過大，可以設置長時間

sethbase.regionserver.lease.period=180000;



hbase與本地表jion時，可能出現啟動后，無限等待。原因：


二．數據導出:
三種導出：

（1）導出到其他hive表：

覆蓋：INSERT OVERWRITE TABLE t1 select * from t2;

不覆蓋：INSERT INTO TABLE t1 select * from t2;

注意hive不支持 子查詢結果直接建表，如 create table t1 as select * from t2; 在hive中是錯誤的



（2）導出到本地，hdfs（有無local）：

INSERT OVERWRITE [LOCAL]DIRECTORY directory1 select_statement1

這里注意：

導出本地時可以指定列分隔符，

而導出到hdfs上不可以使用hive默認\001（^A）

導入到hdfs上不能指定列的分隔符：

使用語句ROW FORMAT DELIMITEDFIELDS TERMINATED BY ',' 會報錯，不能識別。

代碼如

INSERT OVERWRITE DIRECTORY'/user/wizad/tmp/mytest'

select * from wizad_mdm_dev_lmj_edition_insterest

因為hive導出到hdfs上，默認使用^A作為列分隔符，其對應着001。官方文檔：Data written to the filesystem is serialized as text with columns separated by ^A。（所以，python中用line.split('\x01')或者line.split('\001')切分。）

但這樣的數據在pig中無法讀入，用'\001'或者'\\001'或者'^A'都無法讀入。

解決辦法：作為一個列整體讀入后，在用STRSPLIT分隔按'\\001'（使用'^A'無效）,可以返回一個元組類似((a,b))，pig代碼如下

%default interestFlie/user/wizad/tmp/mytest/*

--無效interest_data =LOAD '$interestFlie' USING PigStorage('\\001')

--無效interest_data =LOAD '$interestFlie' USING PigStorage('^A')

interest_data = LOAD '$interestFlie'

AS(cookie_id:chararray

--  guid:chararray,

--  dimkey :chararray,

--  dimvalue:chararray

);

test2 = foreach interest_data generateSTRSPLIT(cookie_id,'\\001');

DUMP res;

describe res;

結果：result結構:{(null)}

((B2BEF56E09EC115456E221,352751019523267,interest_11,161))

((B2BEF56E09EC115456E221,352751019523267,interest_13,102))

((EC15860E09D5EA545700E9,352751019523267,interest_11,161))

((EC15860E09D5EA545700E9,352751019523267,interest_13,102))

((daca0487-5424ef1a0dc3fa-11535481,352751019523267,interest_4,61))

((daca0487-5424ef1a0dc3fa-11535481,352751019523267,interest_21,21))

((daca0487-5424ef1a0dc3fa-11535481,352751019523267,interest_11,161))

((daca0487-5424ef1a0dc3fa-11535481,352751019523267,interest_13,102))

 

 



指定導出全路徑也不行。

INSERT OVERWRITE DIRECTORY'hdfs://namenode/user/wizad/tmp/interest2/'

ROW FORMAT DELIMITED FIELDS TERMINATED BY','

select * fromwizad_mdm_dev_lmj_edition_insterest

 

2導出到本地，可以指定列分隔符：

INSERT OVERWRITE local DIRECTORY'/home/wizad/lmj/inserest2'

ROW FORMAT DELIMITED FIELDS TERMINATED BY','

select * fromwizad_mdm_dev_lmj_edition_insterest

 

導入到本地可直接用-e命令，默認使用\t分隔：

hive -e 'use wizad;

select * fromwizad_mdm_dev_lmj_edition_insterest;'>> mytest

查詢結果使用\t作為列分隔符，mytest中

3531 3631 3730 3631 3931 3635 34360969  51617061916546.i

vim中16進制（%!xxd）兩位對應一個字符，看到"."對應的09，在asii碼表中09，就是tab制表符

 

也可以用hive -f：

[wyp@master ~/local]$ cat wyp.sql

select * from wyp

[wyp@master ~/local]$ hive -f wyp.sql>> local/wyp2.txt

參考：https://blog.csdn.net/longshenlmj/article/details/41519503

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [Hive_3] Hive 建表指定分隔符 hive創建分區表指定分隔符_Hive建表時指定分隔符或使用多字符分隔 Hive數據導入和分隔符 hive默認分隔符引起的日志分割問題 csv分隔符導出csv文件時，處理分隔符問題(轉) MySQL中使用group_concat()指定分隔符 MySQL中使用group_concat()指定分隔符 HIVE中的數據怎么導出到hdfs或本地呢 C# List 和ArrayList用指定的分隔符分隔成字符串