不多說,直接上干貨!
Kudu的性能測試
1. kudu和parquet的比較

上圖是官方給出的用Impala跑TPC-H的測試,對比Parquet和Kudu的計算速度。從圖中我們可以發現,Kudu的速度和parquet的速度差距不大,甚至有些Query比parquet還快。然而,由於這些數據都是在內存緩存過的,因此該測試結果不具備參考價值。
2. kudu和Hbase的比較

圖是官方給出的另一組測試結果,從圖中我們可以看出,在scan和range查詢上,kudu和parquet比HBase快很多,而random access則比HBase稍慢。然而數據集只有60億行數據,所以很可能這些數據也是可以全部緩存在內存的。對於從內存查詢,除了random access比HBase慢之外,kudu的速度基本要優於HBase。
3、超大數據集的查詢性能
Kudu的定位不是in-memory database。因為它希望HDFS/Parquet這種存儲,因此大量的數據都是存儲在磁盤上。如果我們想要拿它代替HDFS/Parquet + HBase,那么超大數據集的查詢性能就至關重要,這也是Kudu的最初目的。然而,官方沒有給出這方面的相關數據。由於條件限制,網易暫時未能完成該測試。下一步,我們將計划搭建10台Kudu + Impala服務器,並用tpc-ds生成超大數據,來完成該對比測驗。
同時,大家可以關注我的個人博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ http://www.cnblogs.com/sunnyDream/
詳情請見:http://www.cnblogs.com/zlslch/p/7473861.html
人生苦短,我願分享。本公眾號將秉持活到老學到老學習無休止的交流分享開源精神,匯聚於互聯網和個人學習工作的精華干貨知識,一切來於互聯網,反饋回互聯網。
目前研究領域:大數據、機器學習、深度學習、人工智能、數據挖掘、數據分析。 語言涉及:Java、Scala、Python、Shell、Linux等 。同時還涉及平常所使用的手機、電腦和互聯網上的使用技巧、問題和實用軟件。 只要你一直關注和呆在群里,每天必須有收獲
對應本平台的討論和答疑QQ群:大數據和人工智能躺過的坑(總群)(161156071)







