YDB一种让SPARK性能提升千百倍的一种新方式


什么是延云YDB

      YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。

      YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。

为探索性分析与即席分析而设计

YDB的即席分析(Ad Hoc)概念的解释

1:当场,就是当场去查询,现场 随意、即兴 查询。

2:响应时间要求为几秒才能称为即席。

即席分析与普通分析的区别

1.普通的应用分析是定制开发的,大多是预先计算好的。

2.即席分析是用户在使用时临时生产的分析,查询条件事先未知,系统无法预先优化这些查询,在现场没法预先准备,所以即席查询的性能也是评估数据仓库的一个重要指标。

YDB适合的行业

四、企业级特性:稳定,可靠,易用

 

哪些用户适合使用YDB?

1.传统关系型数据,已经无法容纳更多的数据,查询效率严重受到影响的用户。

2.目前在使用SOLR、ES做全文检索,觉得solr与ES提供的分析功能太少,无法完成复杂的业务逻辑,或者数据量变多后SOLR与ES变得不稳定,在掉片与均衡中不断恶性循环,不能自动恢复服务,运维人员需经常半夜起来重启集群的情况。

3.基于对海量数据的分析,但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。

4.需要对用户画像行为类数据做多维定向分析的用户。

5.需要对大量的UGC(User Generate Content)数据进行检索的用户。

6.当你需要在大数据集上面进行快速的,交互式的查询时。

7.当你需要进行数据分析,而不只是简单的键值对存储时。

8.当你想要分析实时产生的数据时。

在公安系统的-典型的场景

 

 

有大数据技术痛点分析

 

主要功能概述

功能 概述
检索过滤 等值匹配,支持 in操作,>,<,>=,<=

and与or的嵌套组合

统计分析 单/多列group by,max,min,sum,avg,count,distinct
复杂SQL 自定义udf,udaf,udtf,SQL多层嵌套,union,join
模糊查询 全文检索,临近搜索,相似文本(文章)搜索, like。
数据类型 string,int,long,float,double

支持一列多值适合一条记录多个标签的存储与检索

中文分词 内嵌二元分词,号码分词,IK词库分词,以及YDB的多元分词。

也可自定义或拓展第三方分词。

卓越的性能

1.稽查布控场景性能

 

2.卓越的检索与分析性能

与Spark txt性能对比(提升倍数)

与ORACLE性能对比

 

 

3.卓越的排序性能

      按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中,我们改变了传统的暴力排序方式,通过索引技术,可以超快对数据进行单列排序,不需要全表暴力扫描,这个技术我们称之为BlockSort,目前支持tlong、tdouble、tint、tfloat四种数据类型。

      由于BlockSort是借助搜索的索引来实现的,所以采用BlockSort的排序,不需要暴力扫描,性能有大幅度的提升。

      BlockSort的排序,并非是预计算的方式,可以进行全表进行排序,也可以基于任意的过滤筛选条件进行过滤排序。

      详细测试地址:http://blog.csdn.net/qq_33160722/article/details/54447022

      300亿条数据的排序 演示视频  http://blog.csdn.net/qq_33160722/article/details/54834896

 

测试结果(时间单位为秒)

amtint列筛选 筛选后条数 排序方式 YDBBlockSort Spark
无筛选 100亿 降序 3.3 1118
升序 3.6 1085
100 TO 900 80亿 降序 1.5 1093
升序 1.3 1070
100 TO 600 50亿 降序 1.53 1104
升序 1.38 867
100 TO 200 10亿 降序 7.00 1115
升序 1.11 1131
100 TO 110 1亿 降序 2.1 1160
升序 3.44 1114
100 TO 101 0.1亿 降序 10.67 1089
升序 7.0 1110

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM