主要的需求
針對大體量表的OLAP統計查詢,需要找到一個穩定,高性能的大數據數據庫,具體使用
- 數據可以實時的寫入和查詢,並發的tps不是很高
- 建立數據倉庫,模式上主要采用星星模型、雪花模型,或者寬表
- 前端展示 分為3類 saiku、granafa、c#代碼開發
- 數據體量:事實表在3-5億、維度表大的在500萬左右
- 數據集成:可以和現在使用的kettle進行無縫集成
基於以上需求,前期使用tidb,但是在大體量表的olap查詢性能不是很好,使用tipark 離線計算還可,但是時間上無法滿足系統需求,初步了解到mpp架構的greenplum。因此先期進行了簡單比較
基礎測試數據表說明
數據表
訂單寬表,數據表字段為300個左右
基本的測試結果 --不包含並發測試
集群基本配置 :
Greenplum 4台8核56G,9個segments 表:列存,無索引
tidb :6台8核56G,ssd
tpc-ds
tpc-h
其余測試 --
小結
- 針對OLAP的查詢,greenplum 的分析統計性能要優於tidb
- 在greenplum不使用索引的情況下,點差要比tidb 差不少,增加對應的索引之后,性能差不多,但是greenplum 不建議使用索引
- greenplum在列存的場景下,查詢的列的個數對性能影響較大。
下一步驗證
1.星星模型 下的性能,考慮事實表 3億,維度表 500萬,
2.3億的訂單數據是否需要使用分區表
3.報表導出場景是否可以使用gp
4. sqlserver的存儲過程是否可以遷移到greenplum