什么是延雲YDB
YDB全稱延雲YDB,是一個基於Hadoop分布式架構下的實時的、多維的、交互式的查詢、統計、分析引擎,具有萬億數據規模下的秒級性能表現,並具備企業級的穩定可靠表現。
YDB是一個細粒度的索引,精確粒度的索引。數據即時導入,索引即時生成,通過索引高效定位到相關數據。YDB與Spark深度集成,Spark對YDB檢索結果集直接分析計算,同樣場景讓Spark性能加快百倍。

為探索性分析與即席分析而設計
YDB的即席分析(Ad Hoc)概念的解釋
1:當場,就是當場去查詢,現場 隨意、即興 查詢。
2:響應時間要求為幾秒才能稱為即席。
即席分析與普通分析的區別
1.普通的應用分析是定制開發的,大多是預先計算好的。
2.即席分析是用戶在使用時臨時生產的分析,查詢條件事先未知,系統無法預先優化這些查詢,在現場沒法預先准備,所以即席查詢的性能也是評估數據倉庫的一個重要指標。
YDB適合的行業

四、企業級特性:穩定,可靠,易用
哪些用戶適合使用YDB?
1.傳統關系型數據,已經無法容納更多的數據,查詢效率嚴重受到影響的用戶。
2.目前在使用SOLR、ES做全文檢索,覺得solr與ES提供的分析功能太少,無法完成復雜的業務邏輯,或者數據量變多后SOLR與ES變得不穩定,在掉片與均衡中不斷惡性循環,不能自動恢復服務,運維人員需經常半夜起來重啟集群的情況。
3.基於對海量數據的分析,但是苦於現有的離線計算平台的速度和響應時間無滿足業務要求的用戶。
4.需要對用戶畫像行為類數據做多維定向分析的用戶。
5.需要對大量的UGC(User Generate Content)數據進行檢索的用戶。
6.當你需要在大數據集上面進行快速的,交互式的查詢時。
7.當你需要進行數據分析,而不只是簡單的鍵值對存儲時。
8.當你想要分析實時產生的數據時。
在公安系統的-典型的場景


有大數據技術痛點分析
![]() |
主要功能概述
| 功能 | 概述 |
| 檢索過濾 | 等值匹配,支持 in操作,>,<,>=,<= and與or的嵌套組合 |
| 統計分析 | 單/多列group by,max,min,sum,avg,count,distinct |
| 復雜SQL | 自定義udf,udaf,udtf,SQL多層嵌套,union,join |
| 模糊查詢 | 全文檢索,臨近搜索,相似文本(文章)搜索, like。 |
| 數據類型 | string,int,long,float,double 支持一列多值適合一條記錄多個標簽的存儲與檢索 |
| 中文分詞 | 內嵌二元分詞,號碼分詞,IK詞庫分詞,以及YDB的多元分詞。 也可自定義或拓展第三方分詞。 |
卓越的性能
1.稽查布控場景性能
|
2.卓越的檢索與分析性能
與Spark txt性能對比(提升倍數)

與ORACLE性能對比
![]() |
3.卓越的排序性能
按照時間逆序排序可以說是很多日志系統的硬指標。在延雲YDB系統中,我們改變了傳統的暴力排序方式,通過索引技術,可以超快對數據進行單列排序,不需要全表暴力掃描,這個技術我們稱之為BlockSort,目前支持tlong、tdouble、tint、tfloat四種數據類型。
由於BlockSort是借助搜索的索引來實現的,所以采用BlockSort的排序,不需要暴力掃描,性能有大幅度的提升。
BlockSort的排序,並非是預計算的方式,可以進行全表進行排序,也可以基於任意的過濾篩選條件進行過濾排序。
詳細測試地址:http://blog.csdn.net/qq_33160722/article/details/54447022
300億條數據的排序 演示視頻 http://blog.csdn.net/qq_33160722/article/details/54834896
測試結果(時間單位為秒)
| amtint列篩選 | 篩選后條數 | 排序方式 | YDBBlockSort | Spark |
| 無篩選 | 100億 | 降序 | 3.3 | 1118 |
| 升序 | 3.6 | 1085 | ||
| 100 TO 900 | 80億 | 降序 | 1.5 | 1093 |
| 升序 | 1.3 | 1070 | ||
| 100 TO 600 | 50億 | 降序 | 1.53 | 1104 |
| 升序 | 1.38 | 867 | ||
| 100 TO 200 | 10億 | 降序 | 7.00 | 1115 |
| 升序 | 1.11 | 1131 | ||
| 100 TO 110 | 1億 | 降序 | 2.1 | 1160 |
| 升序 | 3.44 | 1114 | ||
| 100 TO 101 | 0.1億 | 降序 | 10.67 | 1089 |
| 升序 | 7.0 | 1110 |


