Hive與Clickhouse對比


個人理解,歡迎指正

對比指標 Hive Clickhouse
元數據管理 元數據存MySQL,通過HiveMetaStore管理 每個Shard自己管理
數據存儲 HDFS 本地磁盤
架構設計 MR架構 MPP架構
資源消耗 運行時申請資源 常駐進程
線程模式 單線程 多線程
寫數據過程 可以直接附加寫HDFS,不是排序的 舊數據在一個Part,新數據會寫另一個Part,然后通過MergeTree引擎將多個Part異步合並(按排序鍵歸並排序)
查詢過程 向Yarn申請資源,通過Spark或MR計算 任務提交到各Shard上面,Shard各自計算,結果再匯總返回
穩定性 通過Yarn資源調度,穩定性好 穩定性差,有時候相同的sql可能會成功,也會失敗,建議重試
查詢速度 MR還是挺慢的,Spark會有所提速,分鍾級 使用LSM Tree + 排序鍵 + 稀疏索引,查詢速度快,秒級或毫秒級


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM