花费 7 ms
[大牛翻译系列]Hadoop(17)MapReduce 文件处理:小文件

5.1 小文件 大数据这个概念似乎意味着处理GB级乃至更大的文件。实际上大数据可以是大量的小文件。比如说,日志文件通常增长到MB级时就会存档。这一节中将介绍在HDFS中有效地处理小文件的技术。 ...

Thu Mar 20 14:47:00 CST 2014 0 3911
[大牛翻译系列]Hadoop(7)MapReduce:抽样(Sampling)

4.3 抽样(Sampling) 用基于MapReduce的程序来处理TB级的数据集,要花费的时间可能是数以小时计。仅仅是优化代码是很难达到良好的效果。 在开发和调试代码的时候,没有必要处理整个数 ...

Sun Mar 09 16:09:00 CST 2014 0 3091

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM