【文章推荐】大数据小视角2：ORCFile与Parquet，开源圈背后的生意

原文：大数据小视角2：ORCFile与Parquet，开源圈背后的生意

上一篇文章聊了聊基于PAX的混合存储结构的RCFile，其实这里笔者还了解一些八卦，RCfile的主力团队都是来自中科院的童鞋在Facebook完成的，算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷，后续被HortonWorks盯上之后上马了ORCFile格式，而老对头Cloudera则紧抱Google大腿推出了Parquet格式。其实二者需要解决的问题是殊途同归的，但是不同的 ...

2018-05-25 10:46 1 2314 推荐指数：

查看详情

大数据小视角4：小议Lambda 与 Kappa 架构，不可变数据的计算探索

这个系列文章之前因为私事荒废了很久，继续更新～～之前与老大谈论架构时，老大和我聊了聊分布式数据处理之中的Lambda结构，之前在《Designing Data-Intensive Applications》这本书之中，作者 Martin Kleppmann也在文中涉及到了通过重型批处理与灵活 ...

大数据小视角5：探究SSD写放大的成因与解决思路

笔者目前开发运维的存储系统的服务器都跑在SSD之上，目前单机服务器最大的SSD容量有4T之多。（公司好有钱，以前在实验室都只有机械硬盘用的~~）但SSD本身的特性与机械硬盘差距较大，虽然说在性能 ...

大数据小视角3：CarbonData，来自华为的中国力量

连续两篇文章都聊了不同的存储格式，这篇我们继续深入来看看在存储格式的演变之上有什么新的"黑科技"。华为公司在2016年开源了类parquet的列存格式：CarbonData，并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业，成为了Apache社区的顶级项目 ...

大数据：Parquet文件存储格式

一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式 ...

大数据：Parquet文件存储格式

一、Parquet的组成 Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成 ...

环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

一、前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout ...

大数据Hadoop生态圈：Pig和Hive

前言 Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源 ...

大数据Hadoop生态圈介绍

大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。 Hadoop的核心是YARN,HDFS和Mapreduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示 ...

原文：大数据小视角2：ORCFile与Parquet，开源圈背后的生意

相关推荐

相关标签