參考:https://www.cnblogs.com/shijiaoyun/p/5778025.html
hadoop分布式文件系統
1、hdfs是一個分布式文件系統,簡單理解就是多台機器組成的一個文件系統。
2、hdfs中有3個重要的模塊,client對外提供統一操作接口,DataNode真正存儲數據,NameNode協調和管理數據,是一個典型的master-slave架構。
3、hdfs會對大文件進行切塊,並且每個切塊會存儲備份,保證數據的高可用,適合存儲大數據。
4、NameNode通過fsimage和editlog來實現數據恢復和高可用。
5、hdfs不適用於大量小文件存儲,不支持並發寫入,不支持文件隨機修改,查詢效率大概在秒級。