Alluxio官网:
https://docs.alluxio.io/os/user/stable/en/Overview.html
介绍
Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。
在大数据生态系统中,Alluxio介于计算框架(如Apache Spark,Apache MapReduce,Apache HBase,Apache Hive,Apache Flink)和现有的存储系统(如Amazon S3,OpenStack Swift,GlusterFS,HDFS,MaprFS,Ceph,NFS,OSS)之间。Alluxio为大数据软件栈带来了显著的性能提升。Alluxio与Hadoop是兼容的。现有的数据分析应用,如Spark和MapReduce程序,可以不修改代码直接在Alluxio上运行。
Alluxio是中国人开发的,好处就是中文文档很齐全,方便大家入门,具体科普就不做了,看官方入口。
设计
Alluxio本身就如上面介绍的,支持很多大数据框架,这也正是我们看上的点,我们目前MR、Hive、HBase、Spark、Presto都是我们在使用的,而底层存储HDFS、GlusterFS都是我们在使用的。看起来Alluxio可以对我们的很多应用进行提速。本文以Alluxio+HDFS模式为例讲解Alluxio的部署和使用。
Alluxio的设计使用了单Master和多Worker的架构。从高层的概念理解,Alluxio可以被分为三个部分,Master,Worker和Client。Master和Worker一起组成了Alluxio的服务端,它们是系统管理员维护和管理的组件。Client通常是应用程序,如Spark或MapReduce作业,或者Alluxio的命令行用户。Alluxio用户一般只与Alluxio的Client组件进行交互。
整理自:
https://blog.csdn.net/weixin_33690963/article/details/91593844