這個系列文章之前因為私事荒廢了很久,繼續更新~~之前與老大談論架構時,老大和我聊了聊分布式數據處理之中的Lambda結構,之前在《Designing Data-Intensive Applications》這本書之中,作者 Martin Kleppmann也在文中涉及到了通過重型批處理與靈活 ...
上一篇文章聊了聊基於PAX的混合存儲結構的RCFile,其實這里筆者還了解一些八卦,RCfile的主力團隊都是來自中科院的童鞋在Facebook完成的,算是一個由華人主導的編碼項目。但是RCfile仍然存在一些缺陷,后續被HortonWorks盯上之后上馬了ORCFile格式,而老對頭Cloudera則緊抱Google大腿推出了Parquet格式。 其實二者需要解決的問題是殊途同歸的,但是不同的 ...
2018-05-25 10:46 1 2314 推薦指數:
這個系列文章之前因為私事荒廢了很久,繼續更新~~之前與老大談論架構時,老大和我聊了聊分布式數據處理之中的Lambda結構,之前在《Designing Data-Intensive Applications》這本書之中,作者 Martin Kleppmann也在文中涉及到了通過重型批處理與靈活 ...
筆者目前開發運維的存儲系統的服務器都跑在SSD之上,目前單機服務器最大的SSD容量有4T之多。(公司好有錢,以前在實驗室都只有機械硬盤用的~~)但SSD本身的特性與機械硬盤差距較大,雖然說在性能 ...
連續兩篇文章都聊了不同的存儲格式,這篇我們繼續深入來看看在存儲格式的演變之上有什么新的"黑科技"。華為公司在2016年開源了類parquet的列存格式:CarbonData,並且貢獻給了Apache社區。CarbonData僅僅用了不到一年的時間就成功畢業,成為了Apache社區的頂級項目 ...
一、Parquet的組成 Parquet僅僅是一種存儲格式,它是語言、平台無關的,並且不需要和任何一種數據處理框架綁定,目前能夠和Parquet適配的組件包括下面這些,可以看出基本上通常使用的查詢引擎和計算框架都已適配,並且可以很方便的將其它序列化工具生成的數據轉換成Parquet格式 ...
一、Parquet的組成 Parquet僅僅是一種存儲格式,它是語言、平台無關的,並且不需要和任何一種數據處理框架綁定,目前能夠和Parquet適配的組件包括下面這些,可以看出基本上通常使用的查詢引擎和計算框架都已適配,並且可以很方便的將其它序列化工具生成的數據轉換成 ...
一、前言 Hadoop簡介 Hadoop就是一個實現了Google雲計算系統的開源系統,包括並行計算模型Map/Reduce,分布式文件系統HDFS,以及分布式數據庫Hbase,同時Hadoop的相關項目也很豐富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout ...
前言 Pig最早是雅虎公司的一個基於Hadoop的並行處理架構,后來Yahoo將Pig捐獻給Apache的一個項目,由Apache來負責維護,Pig是一個基於 Hadoop的大規模數據分析平台。 Pig為復雜的海量數據並行計算提供了一個簡 易的操作和編程接口,這一點和FaceBook開源 ...
大數據Hadoop生態圈-組件介紹 Hadoop是目前應用最為廣泛的分布式大數據處理框架,其具備可靠、高效、可伸縮等特點。 Hadoop的核心是YARN,HDFS和Mapreduce。隨着處理任務不同,各種組件相繼出現,豐富Hadoop生態圈,目前生態圈結構大致如圖所示 ...