個人理解,歡迎指正
對比指標 | Hive | Clickhouse |
元數據管理 | 元數據存MySQL,通過HiveMetaStore管理 | 每個Shard自己管理 |
數據存儲 | HDFS | 本地磁盤 |
架構設計 | MR架構 | MPP架構 |
資源消耗 | 運行時申請資源 | 常駐進程 |
線程模式 | 單線程 | 多線程 |
寫數據過程 | 可以直接附加寫HDFS,不是排序的 | 舊數據在一個Part,新數據會寫另一個Part,然后通過MergeTree引擎將多個Part異步合並(按排序鍵歸並排序) |
查詢過程 | 向Yarn申請資源,通過Spark或MR計算 | 任務提交到各Shard上面,Shard各自計算,結果再匯總返回 |
穩定性 | 通過Yarn資源調度,穩定性好 | 穩定性差,有時候相同的sql可能會成功,也會失敗,建議重試 |
查詢速度 | MR還是挺慢的,Spark會有所提速,分鍾級 | 使用LSM Tree + 排序鍵 + 稀疏索引,查詢速度快,秒級或毫秒級 |