hive分隔符_HIVE-默認分隔符的（linux系統的特殊字符）查看，輸入和修改

本文轉載自查看原文 2022-03-14 20:35 4348

#修改分隔符為逗號 ,

ALTER TABLE table_name SET SERDEPROPERTIES ('field.delim' = ',' , 'serialization.format'=',');

#修改分隔符為\001,在linux的vim中顯示為^A,是hive默認的分隔符

ALTER TABLE table_name SET SERDEPROPERTIES ('field.delim' = '\001' , 'serialization.format'='\001');

#修改分隔符為制表符\t

ALTER TABLE table_name SET SERDEPROPERTIES ('field.delim' = '\t' , 'serialization.format'='\t');

重點知識：
field.delim 指定表的兩個列字段之間的文件中的字段分隔符.
serialization.format 指定數據文件序列化時表中兩個列字段之間的文件中的字段分隔符.
對於分區表，每個分區可以有不同的分隔符屬性
alter語法修改分區表的分隔符后，不會影響已有分區數據讀寫，只會對后續新寫入的數據生效。這一點非常友好
alter語法修改分隔符只針對於后續新增數據有效，拿分區表而言，比如現在有2個分區,day=2020-05-01,day=2020-05-02,分隔符是\t, 通過alter把分隔符改為\001，再寫入寫的分區day=2020-05-03

可以通過desc formatted tablename partition(key=value)語法查看每個分區的分隔符，那么2020-05-01，2020-05-02的分區依然是\t分隔符，2020-05-03分區的分隔符是\001；而且可以通過hive正常讀寫操作這三個分區而不會出現任何問題

通過desc formatted table查看該表的分隔符，發現已經變為\001

sqoop中的--fields-terminated-by 參數指定分隔符發生變化后，必須同時通過上面結論中的語法修改對應表 field.delim，serialization.format二者的值。
sqoop中--fields-terminated-by 指定\01或者\001，效果是一樣的，對應到hive的 field.delim，serialization.format，都是\001
hive的默認分割符是\001,在desc formatted 下看到的值為\u0001 ，不要寫成其他的\01,\0001
操作：
1.建一張分區表，指定分隔符為\t

CREATE TABLE `tmp.test0506_sqoop`(
`id` bigint,
`seq_no` string,
`name` string,
`e_type` string,
`status` string)
PARTITIONED BY (`day` string) row format delimited fields terminated by '\t'
LINES TERMINATED BY '\n' STORED AS textfile;
2.通過sqoop導數據進來,指定分隔符為\t

sqoop import \
--mapreduce-job-name sqoop_table_xxx \
--hive-drop-import-delims \
--connect "${datasource_connect}" \
--username ${datasource_username} \
--password '${datasource_password}' \
--hive-overwrite \
--hive-import \
--split-by id \
--boundary-query 'select min(id),max(id) from xxx' \
--hive-table tmp.test0506_sqoop \
--query 'select id,seq_no,name,e_type,status from xxx where $CONDITIONS' \
--target-dir /tmp/sqoop_test0506_sqoop_`date +%s` \
--fields-terminated-by '\t' \
--hive-partition-key day \
--hive-partition-value '2020-05-01'
3.通過alter語法修改表的分隔符為\001

ALTER TABLE tmp.test0506_sqoop SET SERDEPROPERTIES ('field.delim' = '\001' , 'serialization.format'='\001');
4.繼續用sqoop導數據，指定分隔符為\001

sqoop import \
--mapreduce-job-name sqoop_table_xxx \
--hive-drop-import-delims \
--connect "${datasource_connect}" \
--username ${datasource_username} \
--password '${datasource_password}' \
--hive-overwrite \
--hive-import \
--split-by id \
--boundary-query 'select min(id),max(id) from xxx' \
--hive-table tmp.test0506_sqoop \
--query 'select id,seq_no,name,e_type,status from xxx where $CONDITIONS' \
--target-dir /tmp/sqoop_test0506_sqoop_`date +%s` \
--fields-terminated-by '\001' \
--hive-partition-key day \
--hive-partition-value '2020-05-02'
5.查看表，分區的分隔符

select * from tmp.test0506_sqoop where day='2020-05-01' limit 2;

select * from tmp.test0506_sqoop where day='2020-05-02' limit 2;

原文鏈接：https://blog.csdn.net/zbz1006572352/article/details/105976059

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HIVE-默認分隔符的（linux系統的特殊字符）查看，輸入和修改 HIVE-默認分隔符以及linux系統中特殊字符的輸入和查看方式 Hive 默認分隔符 Hive 特殊分隔符處理 hive分隔符總結 Hive默認分隔符和默認NULL值 hive默認分隔符引起的日志分割問題 Hive建表-分隔符 hive sql split 分隔符 Hive數據導入和分隔符