Sqoop |
Flume |
HDFS |
Sqoop用於從結構化數據源,例如,RDBMS導入數據 |
Flume 用於移動批量流數據到HDFS |
HDFS使用 Hadoop 生態系統存儲數據的分布式文件系統 |
Sqoop具有連接器的體系結構。連接器知道如何連接到相應的數據源並獲取數據 |
Flume 有一個基於代理的架構。這里寫入代碼(這被稱為“代理”),這需要處理取出數據 |
HDFS具有分布式體系結構,數據被分布在多個數據節點 |
HDFS 使用 Sqoop 將數據導出到目的地 |
通過零個或更多個通道將數據流給HDFS |
HDFS是用於將數據存儲到最終目的地 |
Sqoop數據負載不事件驅動 |
Flume 數據負載可通過事件驅動 |
HDFS存儲通過任何方式提供給它的數據 |
為了從結構化數據源導入數據,人們必須只使用Sqoop,因為它的連接器知道如何與結構化數據源進行交互並從中獲取數據 |
為了加載流數據,如微博產生的推文。或者登錄Web服務器的文件,Flume 應都可以使用。Flume 代理是專門為獲取流數據而建立的。 |
HDFS擁有自己的內置shell命令將數據存儲。HDFS不能用於導入結構化或流數據 |