【文章推薦】大數據小視角2：ORCFile與Parquet，開源圈背后的生意

原文：大數據小視角2：ORCFile與Parquet，開源圈背后的生意

上一篇文章聊了聊基於PAX的混合存儲結構的RCFile，其實這里筆者還了解一些八卦，RCfile的主力團隊都是來自中科院的童鞋在Facebook完成的，算是一個由華人主導的編碼項目。但是RCfile仍然存在一些缺陷，后續被HortonWorks盯上之后上馬了ORCFile格式，而老對頭Cloudera則緊抱Google大腿推出了Parquet格式。其實二者需要解決的問題是殊途同歸的，但是不同的 ...

2018-05-25 10:46 1 2314 推薦指數：

查看詳情

大數據小視角4：小議Lambda 與 Kappa 架構，不可變數據的計算探索

這個系列文章之前因為私事荒廢了很久，繼續更新～～之前與老大談論架構時，老大和我聊了聊分布式數據處理之中的Lambda結構，之前在《Designing Data-Intensive Applications》這本書之中，作者 Martin Kleppmann也在文中涉及到了通過重型批處理與靈活 ...

大數據小視角5：探究SSD寫放大的成因與解決思路

筆者目前開發運維的存儲系統的服務器都跑在SSD之上，目前單機服務器最大的SSD容量有4T之多。（公司好有錢，以前在實驗室都只有機械硬盤用的~~）但SSD本身的特性與機械硬盤差距較大，雖然說在性能 ...

大數據小視角3：CarbonData，來自華為的中國力量

連續兩篇文章都聊了不同的存儲格式，這篇我們繼續深入來看看在存儲格式的演變之上有什么新的"黑科技"。華為公司在2016年開源了類parquet的列存格式：CarbonData，並且貢獻給了Apache社區。CarbonData僅僅用了不到一年的時間就成功畢業，成為了Apache社區的頂級項目 ...

大數據：Parquet文件存儲格式

一、Parquet的組成 Parquet僅僅是一種存儲格式，它是語言、平台無關的，並且不需要和任何一種數據處理框架綁定，目前能夠和Parquet適配的組件包括下面這些，可以看出基本上通常使用的查詢引擎和計算框架都已適配，並且可以很方便的將其它序列化工具生成的數據轉換成Parquet格式 ...

大數據：Parquet文件存儲格式

一、Parquet的組成 Parquet僅僅是一種存儲格式，它是語言、平台無關的，並且不需要和任何一種數據處理框架綁定，目前能夠和Parquet適配的組件包括下面這些，可以看出基本上通常使用的查詢引擎和計算框架都已適配，並且可以很方便的將其它序列化工具生成的數據轉換成 ...

環境搭建 Hadoop+Hive(orcfile格式)+Presto實現大數據存儲查詢一

一、前言 Hadoop簡介 Hadoop就是一個實現了Google雲計算系統的開源系統，包括並行計算模型Map/Reduce，分布式文件系統HDFS，以及分布式數據庫Hbase，同時Hadoop的相關項目也很豐富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout ...

大數據Hadoop生態圈：Pig和Hive

前言 Pig最早是雅虎公司的一個基於Hadoop的並行處理架構，后來Yahoo將Pig捐獻給Apache的一個項目，由Apache來負責維護，Pig是一個基於 Hadoop的大規模數據分析平台。 Pig為復雜的海量數據並行計算提供了一個簡易的操作和編程接口，這一點和FaceBook開源 ...

大數據Hadoop生態圈介紹

大數據Hadoop生態圈-組件介紹 Hadoop是目前應用最為廣泛的分布式大數據處理框架，其具備可靠、高效、可伸縮等特點。 Hadoop的核心是YARN,HDFS和Mapreduce。隨着處理任務不同，各種組件相繼出現，豐富Hadoop生態圈，目前生態圈結構大致如圖所示 ...

原文：大數據小視角2：ORCFile與Parquet，開源圈背后的生意

相關推薦

相關標簽