一对比

存储空间对比：

查询性能对比：

二设计方案

将数据拆分为：历史数据（hdfs+parquet+snappy）+ 近期数据（kudu），可以兼具各种优点：

利用视图

create view v_table as
select * from parquet_table where dt < 'seven days ago'
union all
select * from kudu_table where dt >= 'seven days ago';

client将kudu_table替换为v_table即可；

kudu问题：

flume kudu sink使用kudu client版本过低，有bug，不会自动刷新token，7天之后会因为token失效报错；升级kudu client后可以解决bug，但是kudu client和flume使用的guava库版本有冲突；
按dt分区后tablet数量过多，磁盘占用空间过大，内存占用过多；
因为tablet数量多，磁盘空间大，每次kudu集群重启需要10-20分钟做initialize；
kudu内存占用过多时会拒绝写操作；
使用kudu作为单一数仓同时支持写入和查询，很容易相互影响，大量写入影响查询，大量查询影响写入，会导致数据丢失或者查询慢；
kudu支持更新，一个delete或者drop就可以把所有数据全部删掉，作为单一数仓比较危险；

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。