[hadoop源碼閱讀][4]-org.apache.hadoop.io.compress系列3-使用壓縮

本文轉載自查看原文 2012-06-15 17:54 3594 hadoop原碼閱讀/ hadoop

hadoop中支持的壓縮方式有多種，比如Gzip，bzip2，zlib等，其中Gzip是hadoop中內置就支持的一種壓縮方式，這種壓縮方式在平時linux的開發人員和管理員中使用的比較廣泛，壓縮比也比較高，壓縮速度也還不錯，所以很多人都喜歡第一趨向於使用這種壓縮格式進行文件的壓縮。

在hadoop中，要在mapreduce 的job中使用gzip壓縮是比較容易的，不記得是從哪個版本開始，hadoop就內置了使用gzip壓縮格式讀取輸入文件，寫中間結果和輸出結果的支持。

1.從壓縮的輸入文件時直接讀入

由於hadoop在讀取輸入文件時，會很智能的根據輸入文件的后綴名來進行判斷是否采用壓縮格式進行讀入，所以當讀到輸入文件是***.gz時，就會猜測該文件是一個用gzip壓縮過的文件，於是就會嘗試使用gzip的讀取方式來讀取.

  
  
  
          
   
   
   
           
   
   
   
           public
   
   
   
            CompressionCodecFactory(Configuration conf) { codecs 
   
   
   
           =
   
   
   
            
   
   
   
           new
   
   
   
            TreeMap
   
   
   
           <
   
   
   
           String, CompressionCodec
   
   
   
           >
   
   
   
           (); List
   
   
   
           <
   
   
   
           Class
   
   
   
           <?
   
   
   
            
   
   
   
           extends
   
   
   
            CompressionCodec
   
   
   
           >>
   
   
   
            codecClasses 
   
   
   
           =
   
   
   
            getCodecClasses(conf);
   
   
   
           //
   
   
   
           conf.get("io.compression.codecs");從這個配置里面取得配置的解碼器
   
   
   
            
   
   
   
            
   
   
   
           if
   
   
   
            (codecClasses 
   
   
   
           ==
   
   
   
            
   
   
   
           null
   
   
   
           ) { addCodec(
   
   
   
           new
   
   
   
            GzipCodec());
   
   
   
           //
   
   
   
           如果core-site.xml里面沒有配置的話 就是有默認的這2個
   
   
   
            
   
   
   
            addCodec(
   
   
   
           new
   
   
   
            DefaultCodec()); } 
   
   
   
           else
   
   
   
            { Iterator
   
   
   
           <
   
   
   
           Class
   
   
   
           <?
   
   
   
            
   
   
   
           extends
   
   
   
            CompressionCodec
   
   
   
           >>
   
   
   
            itr 
   
   
   
           =
   
   
   
            codecClasses.iterator(); 
   
   
   
           while
   
   
   
            (itr.hasNext()) { CompressionCodec codec 
   
   
   
           =
   
   
   
            ReflectionUtils.newInstance(itr.next(), conf); addCodec(codec); } } }

如果使用其他的壓縮方式可以這樣來配置在core-site.xml中

  
  
  
          
   
   
   
           
   
   
   
            
   
   
   
           <
   
   
   
           property
   
   
   
           >
   
   
   
            
   
   
   
           <
   
   
   
           name
   
   
   
           >
   
   
   
           io.compression.codecs
   
   
   
           </
   
   
   
           name
   
   
   
           >
   
   
   
            
   
   
   
           <
   
   
   
           value
   
   
   
           >
   
   
   
           org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec
   
   
   
           </
   
   
   
           value
   
   
   
           >
   
   
   
            
   
   
   
           </
   
   
   
           property
   
   
   
           >

或者在代碼中

    
    
    
            
     
     
     
             
     
     
     
             conf.set(
     
     
     
             "
     
     
     
             io.compression.codecs
     
     
     
             "
     
     
     
             ,
     
     
     
             "
     
     
     
             org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec
     
     
     
             "
     
     
     
             );

在默認的inputformat或者outputformat里面,都自帶編解碼的檢測代碼,如果自己實現format的話,可能需要自己添加如下代碼

實現inputformat

   
   
   
           
    
    
    
            
    
    
    
            CompressionCodecFactory compressionCodecs 
    
    
    
            =
    
    
    
             
    
    
    
            new
    
    
    
             CompressionCodecFactory(job); 
    
    
    
            final
    
    
    
             CompressionCodec codec 
    
    
    
            =
    
    
    
             compressionCodecs.getCodec(file); CompressionInputStreamin
    
    
    
            =
    
    
    
            codec.createInputStream(fileIn); ....

實現outputformat

   
   
   
           
    
    
    
            
    
    
    
            Class 
    
    
    
            <?
    
    
    
             
    
    
    
            extends
    
    
    
             CompressionCodec 
    
    
    
            >
    
    
    
             codecClass 
    
    
    
            =
    
    
    
            getOutputCompressorClass(job, GzipCodec.
    
    
    
            class
    
    
    
            ); CompressionCodec codec 
    
    
    
            =
    
    
    
             (CompressionCodec)ReflectionUtils.newInstance(codecClass, job); Path file 
    
    
    
            =
    
    
    
            FileOutputFormat.getTaskOutputPath(job,name 
    
    
    
            +
    
    
    
             codec.getDefaultExtension()); FileSystem fs 
    
    
    
            =
    
    
    
             file.getFileSystem(job); FSDataOutputStream fileOut 
    
    
    
            =
    
    
    
             fs.create(file, progress); CompressionOutputStreamout
    
    
    
            =
    
    
    
            codec.createOutputStream(fileOut)) ....

2.將mapreduce job所產生的中間結果進行壓縮

由於mapreduce算法本身的特征，必然會在job的運行過程中產生一定的中間結果文件，當數據量很大的時候，這些中間結果也非常的客觀，一定程度上，對job的效率會有一定的影響。由於通常計算任務的瓶頸都在磁盤的讀寫IO上，因此如果能夠減少因中間文件而產生的disk IO，則對作業的效率肯定有益無害。因此如果希望將mapreduce作業的中間結果進行壓縮，在hadoop的conf（可以通過修改hadoop- site.xml的配置選項，可以在程序中用JobConf的類接口設置，或者在提交作業時用-D選項來設置該選項）中配置一個選項：

    
    
    
            
     
     
     
             
     
     
     
             <
     
     
     
             property
     
     
     
             >
     
     
     
              
     
     
     
             <
     
     
     
             name
     
     
     
             >
     
     
     
             mapred.compress.map.output
     
     
     
             </
     
     
     
             name
     
     
     
             >
     
     
     
              
     
     
     
             <
     
     
     
             value
     
     
     
             >
     
     
     
             true
     
     
     
             </
     
     
     
             value
     
     
     
             >
     
     
     
              
     
     
     
             </
     
     
     
             property
     
     
     
             >

或者可以在代碼中指定

  
  
  
          
   
   
   
           
   
   
   
           conf.setCompressMapOutput(
   
   
   
           true
   
   
   
           ); conf.setMapOutputCompressorClass(GzipCodec.
   
   
   
           class
   
   
   
           );

這樣，作業就會將產生的中間結果寫入slave local的時候，對結果進行壓縮，reduce讀取時也能夠根據gz的后綴知道該中間結果是壓縮文件，於是采用相應的讀取格式來讀取。

關於這個中間結果壓縮,在0.19版本上可能有一個bug,具體參考 http://hi.chinaunix.net/?uid-9976001-action-viewspace-itemid-48083

3.將最終的計算輸出的結果進行壓縮

有的時候，我們需要對作業的運行結果進行歷史保存，但是如果每天積累的計算結果非常大，又想要保存盡量多的歷史結果一邊將來的結算，那么日積月累下，就會占據非常非常大的HDFS的存儲空間，並且由於是歷史數據，使用的頻率也不高，這就會造成很大的存儲空間的浪費，因此，將計算的結果進行壓縮，也是一種非常好的節省空間的方法。要在 hadoop job中做到這一點也很容易，只需要告訴hadoop，“我想要多job的輸出結果進行壓縮，並保存到HDFS上去”，就行了。具體的操作就是：在 conf中設置配置選項：

  
  
  
          
   
   
   
           
   
   
   
           <
   
   
   
           property
   
   
   
           >
   
   
   
            
   
   
   
           <
   
   
   
           name
   
   
   
           >
   
   
   
           mapred.output.compress
   
   
   
           </
   
   
   
           name
   
   
   
           >
   
   
   
            
   
   
   
           <
   
   
   
           value
   
   
   
           >
   
   
   
           true
   
   
   
           </
   
   
   
           value
   
   
   
           >
   
   
   
            
   
   
   
           </
   
   
   
           property
   
   
   
           >

或者可以在代碼中指定

  
  
  
          
   
   
   
           
   
   
   
           conf.setBoolean(
   
   
   
           "
   
   
   
           mapred.output.compress
   
   
   
           "
   
   
   
           , 
   
   
   
           true
   
   
   
           ); conf.setClass(
   
   
   
           "
   
   
   
           mapred.output.compression.codec
   
   
   
           "
   
   
   
           , GzipCodec.
   
   
   
           class
   
   
   
           ,CompressionCodec.
   
   
   
           class
   
   
   
           );

4.是使用hadoop-0.19.1對一個任務進行三種方式的壓縮的對比：

讀取非壓縮文件，中間結果不壓縮，輸出結果也不壓縮

讀取壓縮文件，中間結果不壓縮，輸出結果不壓縮

HDFS bytes written-Map的值明顯減少

讀取非壓縮文件，中間結果壓縮，輸出結果不壓縮

Local bytes read-Map/Reduce和 Local bytes written- Map/Reduce的值明顯減少

讀取非壓縮文件，中間結果不壓縮，輸出結果壓縮

HDFS bytes written-Reduce的值明顯減少

因此我們可以看到，在hadoop中使用gzip壓縮來進行讀取，中間結果，數據結果的保存都是非常的容易，因為hadoop native本身就提供了我們相應的類來解析和壓縮數據。不過這里要特別提到的是：gzip壓縮格式在hadoop中的支持有一定的局限性：由於gzip壓縮算法本身的原因，我們無法對gzip壓縮文件進行分塊，也就是說，在hadoop中，如果想要用hadoop 的mapreduce來處理數據，沒一個mapper就必須對應一個gz文件，不能多個mapper對一個gzip文件的多個chunk進行並行的處理，因此如果要在hadoop mapreduce任務中使用gzip，在數據處理之前就需要對數據進行認為的切分，讓一個mapper來處理一塊數據。這樣其實有一點有違 mapreduce的本質。

[這些個counter說明什么問題,請參考另外一篇博文????]

5.關於壓縮和解壓都很快的lzo的使用可以參考下面的url

http://guoyunsky.iteye.com/blog/1289475

http://guoyunsky.iteye.com/blog/1420402

http://www.tech126.com/hadoop-lzo/

http://heipark.iteye.com/blog/1172759

http://hadoop.apache.org/common/docs/r0.19.2/cn/native_libraries.html

參考

http://hi.chinaunix.net/?uid-9976001-action-viewspace-itemid-45151

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [hadoop源碼閱讀][4]-org.apache.hadoop.io.compress系列1-認識解碼器/編碼器 [hadoop源碼閱讀][4]-org.apache.hadoop.io [hadoop源碼閱讀][6]-org.apache.hadoop.ipc-ipc.server hive orc壓縮數據異常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow hadoop源碼閱讀 org.apache.hadoop.ipc.RemoteException(java.io.IOException) java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.h... hadoop MR 任務報錯 "Error: java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io" 問題： Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable 解決方案 [hadoop源碼閱讀][5]-counter的使用和默認counter的含義