hadoop编码问题，mapreduce中Tex与string的转化乱码问题

本文转载自查看原文 2015-09-29 18:17 3003 hadoop

引用：http://blog.csdn.net/zklth/article/details/11829563

Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8，如果文件编码格式是其它类型（如GBK)，则会出现乱码。

此时只需在mapper或reducer程序中读取Text时，使用transformTextToUTF8(text, "GBK");进行一下转码，以确保都是以UTF-8的编码方式在运行。

 
 public static Text transformTextToUTF8(Text text, String encoding) { 

 
 String value = null; 

 
 try { 

 
 value = new String(text.getBytes(), 0, text.getLength(), encoding); 

 
 } catch (UnsupportedEncodingException e) { 

 
 e.printStackTrace(); 
 } 

 
 return new Text(value); 

}

这里核心代码是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //这里的value是Text类型

若直接使用 String line=value.toString(); 会输出乱码, 这是由Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。

正确的方法是将输入的Text类型的value转换为字节数组（value.getBytes()），使用String的构造器String(byte[] bytes, int offset, int length, Charset charset)，通过使用指定的charset解码指定的byte子数组，构造一个新的String。

如果需要map/reduce输出其它编码格式的数据，需要自己实现OutputFormat，在其中指定编码方式，而不能使用默认的TextOutputFormat。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 QT中QString与string的转化，解决中文乱码问题 [转]QT中QString与string的转化，解决中文乱码问题再谈Spring Boot中的乱码和编码问题 Java：编码与乱码问题 Java字符编码的转化问题 C#中byte[] 与string相互转化问题 hadoop mapreduce 解决 top K问题 hadoop 输出中文乱码问题 python编码及requests乱码问题 Python乱码、编码问题汇总

hadoop编码问题，mapreduce中Tex与string的转化 乱码问题

免责声明！

hadoop编码问题，mapreduce中Tex与string的转化乱码问题