4527269.html

1作為輸入

當壓縮文件做為mapreduce的輸入時，mapreduce將自動通過擴展名找到相應的codec對其解壓。

如果我們壓縮的文件有相應壓縮格式的擴展名（比如lzo，gz，bzip2等），hadoop就會根據擴展名去選擇解碼器解壓。

hadoop對每個壓縮格式的支持,詳細見下表：

如果壓縮的文件沒有擴展名，則需要在執行mapreduce任務的時候指定輸入格式.

[java] view plain copy

hadoop jar /usr/home/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-streaming-0.20.2-CDH3B4.jar
-file /usr/home/hadoop/hello/mapper.py -mapper /usr/home/hadoop/hello/mapper.py
-file /usr/home/hadoop/hello/reducer.py -reducer /usr/home/hadoop/hello/reducer.py
-input lzotest -output result4
-jobconf mapred.reduce.tasks=1
-inputformat org.apache.hadoop.mapred.LzoTextInputFormat

當mapreduce的輸出文件需要壓縮時，可以更改mapred.output.compress為true，mapped.output.compression.codec為想要使用的codec的類名就

可以了，當然你可以在代碼中指定，通過調用FileOutputFormat的靜態方法去設置這兩個屬性，我們來看代碼：

[java] view plain copy

輸入也是一個壓縮文件

[plain] view plain copy

~/hadoop/bin/hadoop com.sweetop.styhadoop.MaxTemperatureWithCompression input/data.gz output/

輸出的每一個part都會被壓縮，我們這里只有一個part，看下壓縮了的輸出

[plain] view plain copy

如果你要將序列文件做為輸出，你需要設置mapred.output.compression.type屬性來指定壓縮類型，默認是RECORD類型，它會按單個的record壓縮，如果指定為BLOCK類型，它將一組record壓縮，壓縮效果自然是BLOCK好。

當然代碼里也可以設置，你只需調用SequenceFileOutputFormat的setOutputCompressionType方法進行設置。

[plain] view plain copy

SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);

如果你用Tool接口來跑mapreduce的話，可以在命令行設置這些參數，明顯比硬編碼好很多

即使你的mapreduce的輸入輸出都是未壓縮的文件，你仍可以對map任務的中間輸出作壓縮，因為它要寫在硬盤並且通過網絡傳輸到reduce節點，對其壓

縮可以提高很多性能，這些工作也是只要設置兩個屬性即可，我們看下代碼里怎么設置：

[java] view plain copy

Configuration conf = new Configuration();
conf.setBoolean("mapred.compress.map.output", true);
conf.setClass("mapred.map.output.compression.codec",GzipCodec.class, CompressionCodec.class);
Job job=new Job(conf);
轉至：http://blog.csdn.net/lastsweetop/article/details/9187721

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 zip4j實現文件壓縮與解壓縮 & common-compress壓縮與解壓縮 Java實現解壓縮ZIP C#利用WinRAR實現壓縮和解壓縮 C#實現文件的壓縮和解壓縮 tar 壓縮&解壓縮 Java實現對zip和rar文件的解壓縮 Java實現對zip和rar文件的解壓縮 zlib解壓縮gzip linux批量解壓縮關於LZW算法的壓縮與解壓縮