hive表數據導出到csv亂碼原因及解決方案


轉載自http://blog.csdn.net/lgdlxc/article/details/42126225

Hive表中的數據使用hive - e"select * from table">aa.csv導出到csv文件的時候在window中用Excel打開查看的時候是亂碼,而且格式也不對。

原因有下面兩個:

1.亂碼的原因是用excel打開csv時格式默認為gbk,但是從hive中導出來的是utf8的

2.格式不對的原因是csv文件的列分隔符是逗號或者\t,而hive中默認使用\001

 

解決辦法:

使用hive中的concat_ws函數將所有列連接起來組成一列。

concat_ws('分隔符',列1,列2,……),語句如下

hive -e " select concat_ws(',',cat1,cat2,dd_name) as onecl from dd_prod">testaa.csv

然后再使用iconv -f UTF-8 -c  -t GBK testaa.csv > testbb.csv轉換編碼。得到的testbb.csv沒有亂碼格式也對。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM