MapReduce中，new Text()引發的寫入HDFS的輸出文件多一列的問題

本文轉載自查看原文 2014-07-10 15:16 2373 Java

前段時間業務系統有個模塊數據沒有了，在排查問題的時候發現中間處理環節出錯了，錯誤日志為文件格式不正確，將數據導出后發現這個處理邏輯的輸入文件中每一行都多了一列，而且是一個空列（列分隔符是\t）。第一次檢查代碼后沒發現代碼里多寫了一列，第二次排查Reduce代碼時，發現在寫文件時value為空的Text():

 public void reduce(Text key, Iterator<Text> values,
            OutputCollector<Text, Text> output, Reporter reporter)
            throws IOException  
    {

        String keyString = key.toString();

        Iterator<Text> iterValue = values;

        Double totalSize = 0D;

        while (iterValue.hasNext())
        {
            String value = iterValue.next().toString();
            totalSize += Double.valueOf(value);
        }
        keyString += "\t" + totalSize;
         //原來是這么寫的
        // output.collect(new Text(keyString), new Text());
        //應當這么寫（此處不推薦new Text(keyString)，正確的做法是定義全局的Text,使用的時候用text.Set()）：
        output.collect(new Text(keyString), null);
    }

參見上面的代碼段。

如果在輸出reduce結果時這么寫：

output.collect(new Text(keyString), new Text());

就會導致結果文件中有三個\t。

將new Text() 改成null就可以解決問題了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MapReduce輸出文件名更改提取CSV文件中的某一列 C#獲取堆棧信息，輸出文件名、行號、函數名、列號等 Qt 日志輸出文件 nohup命令及其輸出文件 linux系統中刪除文件的第一列 Linux下將shell輸出寫入文件中 c語言非線程安全函數引發的BUG一列 PHP文件流方式輸出文件 response設置輸出文件編碼