【文章推荐】大数据下的Distinct Count（一）：序

原文：大数据下的Distinct Count（一）：序

在数据库中，常常会有Distinct Count的操作，比如，查看每一选修课程的人数： Hive 在大数据场景下，报表很重要一项是UV Unique Visitor 统计，即某时间段内用户人数。例如，查看一周内app的用户分布情况，Hive中写HiveQL实现： Pig 与之类似，Pig的写法： DataFu 为pig提供基数估计的UDF datafu.pig.stats.HyperLogLogP ...

2016-03-29 13:51 0 6507 推荐指数：

查看详情

大数据下的Distinct Count（二）：Bitmap篇

在前一篇中介绍了使用API做Distinct Count，但是精确计算的API都较慢，那有没有能更快的优化解决方案呢？ 1. Bitmap介绍《编程珠玑》上是这样介绍bitmap的： Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应 ...

【原创】大数据基础之词频统计Word Count

对文件进行词频统计，是一个大数据领域的hello word级别的应用，来看下实现有多简单： 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机 ...

【大数据】科普一下大数据的那些事儿

最近一直没更新，不是因为懒，而是要学的东西太多了，时间全用来学大数据的技术栈了，见谅。言归正传，这篇科普文章就给大家讲讲大数据的技术栈和生态圈，让大数据不再神秘！何谓大数据？ 大数据的Wiki英文引文中的解释如下： The tools, processes ...

Postgresql数据库count(distinct)优化

基本信息基本情况表共800W数据，从260W的结果集中计算出不同的案件数量(130万)，需要执行20多秒原SQL内容表信息和数据量数据库版本信息执行计划尝试增加覆盖索引增加索引 ...

Redis 源码解析 10：五大数据类型之有序集合

有序集合 sorted set (下面我们叫zset 吧) 有两种编码方式：压缩列表 ziplist 和跳表 skiplist。编码一：ziplist zset 在 ziplist 中，成员(member)和分数(score)是挨在一起的，元素按照分数从小到大存储。举个例子，我们用以 ...

大数据环境下的数据仓库建设

先从大数据数据仓库建设的整体架构说起。下图是数据仓库的逻辑分层架构：想看懂数据仓库的逻辑分层架构，必须先弄懂以下4大概念。数据源：数据来源，互联网公司的数据来源随着公司的规模扩张而呈递增趋势，同时自不同的业务源，比如埋点采集，客户上报，API等。 ODS层：数据仓库源头系统 ...

大数据之presto

1、概述 Presto是一个分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集。presto可以通过使用分布式查询，可以快速高效的完成海量数据的查询。它是完全基于内存的，所以速度非常快。presto不仅可以查询HDFS，还可以查询RDMBS数据库。具体的介绍可以参考 ...

大数据 什么是 ETL

ETL 概念 ETL 这个术语来源于数据仓库，ETL 指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL 的目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是 BI 项目重要的一个环节。通常情况下，在 BI 项目中 ETL ...

原文：大数据下的Distinct Count（一）：序

相关推荐

相关标签