在前一篇中介绍了使用API做Distinct Count,但是精确计算的API都较慢,那有没有能更快的优化解决方案呢? 1. Bitmap介绍 《编程珠玑》上是这样介绍bitmap的: Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应 ...
在数据库中,常常会有Distinct Count的操作,比如,查看每一选修课程的人数: Hive 在大数据场景下,报表很重要一项是UV Unique Visitor 统计,即某时间段内用户人数。例如,查看一周内app的用户分布情况,Hive中写HiveQL实现: Pig 与之类似,Pig的写法: DataFu 为pig提供基数估计的UDF datafu.pig.stats.HyperLogLogP ...
2016-03-29 13:51 0 6507 推荐指数:
在前一篇中介绍了使用API做Distinct Count,但是精确计算的API都较慢,那有没有能更快的优化解决方案呢? 1. Bitmap介绍 《编程珠玑》上是这样介绍bitmap的: Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应 ...
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机 ...
最近一直没更新,不是因为懒,而是要学的东西太多了,时间全用来学大数据的技术栈了,见谅。 言归正传,这篇科普文章就给大家讲讲大数据的技术栈和生态圈,让大数据不再神秘! 何谓大数据? 大数据的Wiki英文引文中的解释如下: The tools, processes ...
基本信息 基本情况 表共800W数据,从260W的结果集中计算出不同的案件数量(130万),需要执行20多秒 原SQL内容 表信息和数据量 数据库版本信息 执行计划 尝试增加覆盖索引 增加索引 ...
有序集合 sorted set (下面我们叫zset 吧) 有两种编码方式:压缩列表 ziplist 和跳表 skiplist。 编码一:ziplist zset 在 ziplist 中,成员(member)和分数(score)是挨在一起的,元素按照分数从小到大存储。 举个例子,我们用以 ...
先从大数据数据仓库建设的整体架构说起。 下图是数据仓库的逻辑分层架构: 想看懂数据仓库的逻辑分层架构,必须先弄懂以下4大概念。 数据源:数据来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报,API等。 ODS层:数据仓库源头系统 ...
1、概述 Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。presto可以通过使用分布式查询,可以快速高效的完成海量数据的查询。它是完全基于内存的,所以速度非常快。presto不仅可以查询HDFS,还可以查询RDMBS数据库。 具体的介绍可以参考 ...
ETL 概念 ETL 这个术语来源于数据仓库,ETL 指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL 的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是 BI 项目重要的一个环节。 通常情况下,在 BI 项目中 ETL ...