原文:分布式环境下的分片数据导出方法

最近提交了一个专利,是基于去年做的一个异步数据导出的项目,平稳支撑了 年的双十一,抽时间把其中的细节分享出来 背景 数据导出excel的传统方法一般都是先将数据生成到内存中,然后利用excel的一些工具类生成excel文件通过http请求或者ftp返回给用户。但是在数据量很大或者并发量很高的场景中,往往会导致内存飙高或者频繁的FullGC,严重时会导致宕机。如果分批进行导出则导出数据量的大小与用 ...

2017-12-27 13:40 3 1522 推荐指数:

查看详情

分布式环境的id生成方法

前几天研究数据库分表分库的问题,其中有一个关键的地方就是生成唯一键的问题,假如数据表有1亿条数据,而且还在不断的增加,这里我们就需要考虑到分表分库,假设我们采用Hash或者是用户取模求余的方法将这个表拆分成10个表,每个表的结构相同,其中有一个主键id,那么10个表中的id需要唯一不同,在单表 ...

Sat Jun 08 18:53:00 CST 2013 1 7617
elasticsearch与mongodb分布式集群环境数据同步

1.ElasticSearch是什么 ElasticSearch 是一个基于Lucene构建的开源、分布式,RESTful搜索引擎。它的服务是为具有数据库和Web前端的应用程序提供附加的组件(即可搜索的存储库)。ElasticSearch为应用程序提供搜索算法和相关 ...

Thu Jan 08 01:40:00 CST 2015 1 3208
带着问题学习分布式系统之数据分片

  在前文中,提出了分布式系统(尤其是分布式存储系统)需要解决的两个最主要的问题,即数据分片数据冗余,下面这个图片(来源)形象生动的解释了其概念和区别:      其中,数据集A、B属于数据分片,原始数据被拆分成两个正交子集分布在两个节点上。而数据集C属于数据冗余,同一份完整的数据在两个节点 ...

Wed Jun 28 21:02:00 CST 2017 20 20941
分布式存储系统设计(2)—— 数据分片

分布式存储系统中,数据需要分散存储在多台设备上,数据分片(Sharding)就是用来确定数据在多台存储设备上分布的技术。数据分片要达到三个目的: 分布均匀,即每台设备上的数据量要尽可能相近; 负载均衡,即每台设备上的请求量要尽可能相近 ...

Fri Jul 08 23:27:00 CST 2016 0 12571
分布式环境的并发编程

在JAVA多线程编程中,经常会用到synchronized、lock和原子变量等,分布式系统中,由于分布式系统的分布性,即多线程和多进程并且分布在不同机器中,synchronized和lock这两种锁将失去原有锁的效果,需要我们自己实现分布式锁来处理并发问题。分布式系统处理并发的办法有三种 1. ...

Thu Sep 13 01:53:00 CST 2018 0 819
007 linux环境的伪分布式环境搭建

本文的配置环境是VMware10+centos2.5。 在学习大数据过程中,首先是要搭建环境,通过实验,在这里简短粘贴书写关于自己搭建大数据分布式环境的经验。 如果感觉有问题,欢迎咨询评论。 零:下载ruanjian 1.下载    2.下载网址   https ...

Thu Sep 15 19:40:00 CST 2016 0 1887
linux环境Jmeter分布式环境搭建及执行

目录 一、使用Jmeter分布式测试的背景 二、Jmeter分布式执行原理 三、Jmeter分布式设备资源准备(根据并发数量准备,此处仅供参考) 四、Jmeter分布式搭建 1、JDK1.8安装 1)官网下 ...

Tue Dec 07 18:02:00 CST 2021 0 1651
分布式环境数据一致性的设计总结

相关理论: 在聊分布式环境数据一致性问题之前我们先看一个理论(事务的ACID一定要知道的)CAP理论: CAP理论由加州大学伯克利分校的计算机教授Eric Brewer在2000年提出,其核心思想是任何基于网络的数据共享系统最多只能满足数据一致性(Consistency)、可用性 ...

Fri Feb 26 22:05:00 CST 2016 0 1891
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM