一、数据处理业务场景 首先介绍一下七牛数据处理业务的背景。七牛云目前平台上有超过 50 万家企业客户,图片超过 2000 亿张,累积超过 10 亿小时的视频。 用户把这些图片和视频存储在七牛上后会有一些数据处理方面的需求,如缩放、裁剪、水印等。 这些文件持续在线且数据种类多样 ...
最近在做大数据处理时,遇到两个大表 join 导致数据处理太慢 甚至算不出来 的问题。我们的数仓基于阿里的 ODPS,它与 Hive 类似,所以这篇文章也适用于使用 Hive 优化。处理优化问题,一般是先指定一些常用的优化参数,但是当设置参数仍然不奏效的时候,我们就要结合具体的业务,在 SQL 上做优化了。为了不增加大家的阅读负担,我会简化这篇文章的业务描述。 问题 这是一个离线数据处理的问题。在 ...
2019-07-16 08:32 8 2065 推荐指数:
一、数据处理业务场景 首先介绍一下七牛数据处理业务的背景。七牛云目前平台上有超过 50 万家企业客户,图片超过 2000 亿张,累积超过 10 亿小时的视频。 用户把这些图片和视频存储在七牛上后会有一些数据处理方面的需求,如缩放、裁剪、水印等。 这些文件持续在线且数据种类多样 ...
基于内存映射的千万级数据处理框架 在计算机的世界里,将大问题切分为多个小问题予以解决是非常优秀的思想。 许多优秀的数据存储框架都采用分布式架构解决海量数据的存储问题,在典型的数据库中间件架构中, 往往抽象出逻辑的数据表概念,一个逻辑表对应多个物理表,写入的数据 ...
优化源于痛点(┬_┬) 有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度 让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧! 话不多说,开始分析 ①业务场景: 1.表的数据量很大,时间长了可能会到百亿级的数据 2.表中的部分数据需要更新 3.需要 ...
场景 一个金融公司有 500w 投资用户,每天充值投资 50w 笔,那么该公司每年将近有 1 亿条充值记录,那么我们改如何处理这个充值订单表的数据呢?难不成都放一张表里面,那万一哪天我让你去统计满足某个需求的记录,1 亿条数据里面检索你会累死 mysql 的!今天我们就来讲述一下如何去处理 ...
当业务规模达到一定规模之后,像淘宝日订单量在5000万单以上,美团3000万单以上。数据库面对海量的数据压力,分库分表就是必须进行的操作了。而分库分表之后一些常规的查询可能都会产生问题,最常见的就是比如分页查询的问题。一般我们把分表的字段称作shardingkey,比如订单表按照用户ID ...
版权说明: 本文章版权归本人及博客园共同所有,转载请标明原文出处( https://www.cnblogs.com/mikevictor07/p/10006553.html ),以下内容为个人理解,仅供参考。 一、前言 数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于 ...
集群的结构,大家可以查看我的另一遍文章,Mongodb的三种集群 在最后一种集群中,介绍到。 目前使用的数据就是最后一个测试集群,留下的数据。 简单介绍一下,四个分片的配置 mongos和conf服务器的配置也是差不多,就不贴出来了,不是很重要。 很遗憾的是,片健当初 ...
量上去(最大的单表行数达到百亿级)之后,出现了一些数据量比较大的partition。单partition ...