Hive insert into directory 命令輸出的文件沒有列分隔符分析和解決

本文轉載自查看原文 2015-05-18 21:09 5141 hive/ load/ directory/ 分隔符

參考資料：http://stackoverflow.com/questions/16459790/hive-insert-overwrite-directory-command-output-is-not-separated-by-a-delimiter

問題描述：

Hive insert into directory 命令輸出的文件沒有指定列分隔符，輸出結果就像變成了一個字符串。

通過CREATE EXTERNAL TABLE 和load 方式，嘗試了多種分隔符都不能正確的區分，所有的字段內容合起來變成一個字符串放在了第一個字段，而后面的字段全部為NULL。

問題分析：

1. 導出前的Hive表是以'\t'作為分隔符的，用hadoop fs -cat 看到數據是有分隔符的，如：

2. 導出語句如下：

insert overwrite directory '/tmp/hdfs_out' select a.* from invites a where a.ds='<date>';

3. 查看導出的文件內容：

hadoop dfs -cat /tmp/hdfs_out/000000_0

解決方法：

引文中的滿意答案如下：

Are you sure there is no delimiter in the output directory? By default, Hive uses '\1' for the field delimiter, so you should try 
`hadoop dfs -cat "/tmp/hdfs_out/*" | tr '\001' ' ' –  libjack May 9 '13 at 17:11

意思是，在沒有指定分隔符的默認情況下，hive用'\1' 來做列分隔符，因此，對於這樣的文件，要用'\001'來區分。

據此，將建表語句改為后裝載成功：

CREATE EXTERNAL TABLE tmp_06_table_name(
……
)
COMMENT 'this is tmp_06_table_name'
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\1' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://yncm/tmp/hdfs_out/';

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive分隔符總結 Hive 默認分隔符 hive多分隔符的解決方案 AWK改變輸入輸出分隔符實例分析 Hive建表-分隔符 python文件路徑分隔符的詳細分析 Hive數據導入和分隔符 hive sql split 分隔符 Hive 特殊分隔符處理 linux:awk修改輸出分隔符