【文章推荐】[大牛翻译系列]Hadoop（17）MapReduce 文件处理：小文件

原文：[大牛翻译系列]Hadoop（17）MapReduce 文件处理：小文件

. 小文件大数据这个概念似乎意味着处理GB级乃至更大的文件。实际上大数据可以是大量的小文件。比如说，日志文件通常增长到MB级时就会存档。这一节中将介绍在HDFS中有效地处理小文件的技术。技术使用Avro存储多个小文件假定有一个项目akin在google上搜索图片，并将数以百万计的图片存储分别在HDFS中。很不幸的是，这样做恰好碰上了HDFS和MapReduce的弱项，如下： Hadoop的 ...

2014-03-20 06:47 0 3911 推荐指数：

查看详情

[大牛翻译系列]Hadoop（18）MapReduce 文件处理：基于压缩的高效存储（一）

5.2 基于压缩的高效存储（仅包括技术25，和技术26）数据压缩可以减小数据的大小，节约空间，提高数据传输的效率。在处理文件中，压缩很重要。在处理Hadoop的文件时，更是如此。为了让Hadoop更高效处理文件，就需要选择一个合适的压缩编码器，加快作业运行，增加集群的数据存储能力 ...

[大牛翻译系列]Hadoop（7）MapReduce：抽样（Sampling）

4.3 抽样（Sampling）用基于MapReduce的程序来处理TB级的数据集，要花费的时间可能是数以小时计。仅仅是优化代码是很难达到良好的效果。在开发和调试代码的时候，没有必要处理整个数据集。但如果在这种情况下要保证数据集能够被正确地处理，就需要用到抽样了。抽样是统计学中的一个方法 ...

Hadoop 小文件处理

1. 小文件的产生原因定义: 当一个文件的大小小于 HDFS 的块大小（默认128MB）就认定为小文件，否则就是大文件批处理,离线计算, 会有小文件的产生; 数据处理时,把数据源搬迁到 HDFS,如果数据源本身就是有很多小文件; MapReduce作业 ...

[大牛翻译系列]Hadoop（5）MapReduce 排序：次排序（Secondary sort）

4.2 排序（SORT）在MapReduce中，排序的目的有两个： MapReduce可以通过排序将Map输出的键分组。然后每组键调用一次reduce。在某些需要排序的特定场景中，用户可以将作业（job）的全部输出进行总体排序。例如：需要了解前N个最受欢迎的用户或网页 ...

[大牛翻译系列]Hadoop（2）MapReduce 连接：复制连接（Replication join）

4.1.2 复制连接（Replication join）复制连接是map端的连接。复制连接得名于它的具体实现：连接中最小的数据集将会被复制到所有的map主机节点。复制连接有一个假设前提：在被连接的数据集中，有一个数据集足够小到可以缓存在内存中。如图4.5所示，MapReduce复制连接工作 ...

(翻译)Hadoop中合并小文件

本文翻译自如下网址：http://jugnu-life.blogspot.com/2013/01/merging-small-files-in-hadoop.html，如需转载，请注明出处，谢谢！在讲述如何解决这个问题（小文件问题）之前，我们先总结一下问题是什么和它为什么会成为一个问题 ...

Hadoop MapReduce编程 API入门系列之小文件合并（二十九）

　　不多说，直接上代码。 Hadoop 自身提供了几种机制来解决相关的问题，包括HAR，SequeueFile和CombineFileInputFormat。 Hadoop 自身提供的几种小文件合并机制 Hadoop HAR ...

Hadoop之小文件处理与调优经验

HDFS小文件弊端： HDFS上每个文件都要在namenode上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用namenode的内存空间，另一方面就是索引文件过大是的索引速度变慢 ...

原文：[大牛翻译系列]Hadoop（17）MapReduce 文件处理：小文件

相关推荐

相关标签