MapReduce中，new Text()引发的写入HDFS的输出文件多一列的问题

本文转载自查看原文 2014-07-10 15:16 2373 Java

前段时间业务系统有个模块数据没有了，在排查问题的时候发现中间处理环节出错了，错误日志为文件格式不正确，将数据导出后发现这个处理逻辑的输入文件中每一行都多了一列，而且是一个空列（列分隔符是\t）。第一次检查代码后没发现代码里多写了一列，第二次排查Reduce代码时，发现在写文件时value为空的Text():

 public void reduce(Text key, Iterator<Text> values,
            OutputCollector<Text, Text> output, Reporter reporter)
            throws IOException  
    {

        String keyString = key.toString();

        Iterator<Text> iterValue = values;

        Double totalSize = 0D;

        while (iterValue.hasNext())
        {
            String value = iterValue.next().toString();
            totalSize += Double.valueOf(value);
        }
        keyString += "\t" + totalSize;
         //原来是这么写的
        // output.collect(new Text(keyString), new Text());
        //应当这么写（此处不推荐new Text(keyString)，正确的做法是定义全局的Text,使用的时候用text.Set()）：
        output.collect(new Text(keyString), null);
    }

参见上面的代码段。

如果在输出reduce结果时这么写：

output.collect(new Text(keyString), new Text());

就会导致结果文件中有三个\t。

将new Text() 改成null就可以解决问题了。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 MapReduce输出文件名更改提取CSV文件中的某一列 C#获取堆栈信息，输出文件名、行号、函数名、列号等 Qt 日志输出文件 nohup命令及其输出文件 linux系统中删除文件的第一列 Linux下将shell输出写入文件中 c语言非线程安全函数引发的BUG一列 PHP文件流方式输出文件 response设置输出文件编码