Alluxio官網:
https://docs.alluxio.io/os/user/stable/en/Overview.html
介紹
Alluxio(之前名為Tachyon)是世界上第一個以內存為中心的虛擬的分布式存儲系統。它統一了數據訪問的方式,為上層計算框架和底層存儲系統構建了橋梁。應用只需要連接Alluxio即可訪問存儲在底層任意存儲系統中的數據。此外,Alluxio的以內存為中心的架構使得數據的訪問速度能比現有常規方案快幾個數量級。
在大數據生態系統中,Alluxio介於計算框架(如Apache Spark,Apache MapReduce,Apache HBase,Apache Hive,Apache Flink)和現有的存儲系統(如Amazon S3,OpenStack Swift,GlusterFS,HDFS,MaprFS,Ceph,NFS,OSS)之間。Alluxio為大數據軟件棧帶來了顯著的性能提升。Alluxio與Hadoop是兼容的。現有的數據分析應用,如Spark和MapReduce程序,可以不修改代碼直接在Alluxio上運行。
Alluxio是中國人開發的,好處就是中文文檔很齊全,方便大家入門,具體科普就不做了,看官方入口。
設計
Alluxio本身就如上面介紹的,支持很多大數據框架,這也正是我們看上的點,我們目前MR、Hive、HBase、Spark、Presto都是我們在使用的,而底層存儲HDFS、GlusterFS都是我們在使用的。看起來Alluxio可以對我們的很多應用進行提速。本文以Alluxio+HDFS模式為例講解Alluxio的部署和使用。
Alluxio的設計使用了單Master和多Worker的架構。從高層的概念理解,Alluxio可以被分為三個部分,Master,Worker和Client。Master和Worker一起組成了Alluxio的服務端,它們是系統管理員維護和管理的組件。Client通常是應用程序,如Spark或MapReduce作業,或者Alluxio的命令行用戶。Alluxio用戶一般只與Alluxio的Client組件進行交互。
整理自:
https://blog.csdn.net/weixin_33690963/article/details/91593844