原文:我是如何利用Hadoop做大规模日志压缩的

背景 刚毕业那几年有幸进入了当时非常热门的某社交网站,在数据平台部从事大数据开发相关的工作。从日志收集 存储 数据仓库建设 数据统计 数据展示都接触了一遍,比较早的赶上了大数据热这波浪潮。虽然今天的人工智能的热度要远高于大数据,但是大家还是不能否定大数据在人工智能中不可取代的地位。 话回正题,当时遇到了一个需要解决的问题就是如何快速对日志进行压缩。那时一天的日志量大概是 TB左右,共 种日志,最大 ...

2017-09-27 10:03 2 1392 推荐指数:

查看详情

用Elasticsearch做大规模数据的多字段、多类型索引检索

本文同时发布在我的个人博客 之前尝试了用mysql做大规模数据的检索优化,可以看到单字段检索的情况下,是可以通过各种手段做到各种类型索引快速检索的,那是一种相对简单的场景。 但是实际应用往往会复杂一些 —— 各类索引(关键词匹配、全文检索、时间范围)混合使用,还有排序的需求。这种情况下 ...

Wed Apr 17 00:39:00 CST 2019 1 4682
基于Docker一键部署大规模Hadoop集群及设计思路

一、背景: 随着互联网的发展、互联网用户的增加,互联网中的数据也急剧膨胀。每天产生的数据量数以万计,本地文件系统和单机CPU已无法满足存储和计算要求。Hadoop分布式文件系统(HDFS)是海量数据存储的重要技术,它将数据存储在多个从节点上,对这些节点的硬件资源进行统一管理与分配,并向 ...

Mon Mar 05 02:01:00 CST 2018 0 1342
利用GPGPU计算大规模群落仿真行为

0x00 前言 在今年6月的Unite Europe 2017大会上 Unity 的CTO Joachim Ante演示了未来Unity新的编程特性——C# Job系统,它提供了编写多线程代码的一种既简单又安全的方法。Joachim通过一个大规模群落行为仿真的演示,向我们展现了最新的Job系统 ...

Sun Aug 13 14:56:00 CST 2017 24 3981
利用GPU实现大规模动画角色的渲染

,最后我们必须找到其他的解决方案。那么本文就来聊聊利用GPU实现角色的动画效果,减少CPU端的蒙皮开销 ...

Mon Jul 31 16:00:00 CST 2017 15 12477
Scheduled SQL: SLS 大规模日志上的全局分析与调度

简介: 本文总结了大规模日志全局分析的需求,讨论SLS上现有的典型分析方案,并延伸到 SLS 原生数据处理方案,介绍 Schedueld SQL 功能与最佳实践。 大规模日志全局分析的需求 ...

Thu Jun 10 22:37:00 CST 2021 0 207
如何利用Flink实现超大规模用户行为分析

如何利用Flink实现超大规模用户行为分析 各位晚上好,首先感谢大家参与我的这次主题分享,同时也感谢 InfoQ AI 前线组织这次瀚思科技主题月! 瀚思科技成立于 2014 年,按行业划分我们是一家安全公司。但和大家熟知的卖杀毒软件 ...

Tue Sep 04 03:03:00 CST 2018 0 1123
大规模Hadoop集群实践:腾讯分布式数据仓库(TDW)

TDW 是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的 JobTracker 分散化和 NameNode 高可用两个优化方案。 TDW(Tencent distributed Data Warehouse,腾讯分布式 ...

Thu Aug 21 22:58:00 CST 2014 0 3155
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM