原文:大数据离线分析平台 用户数据Etl

Etl目标 解析我们收集的日志数据,将解析后的数据保存到hbase中。这里选择hbase来存储数据的主要原因就是: hbase的宽表结构设计适合我们的这样多种数据格式的数据存储 不同event有不同的存储格式 。 在etl过程中,我们需要将我们收集得到的数据进行处理,包括ip地址解析 userAgent解析 服务器时间解析等。 在我们本次项目中ip解析采用的是纯真ip数据库,官网是http: ww ...

2019-04-17 16:30 0 782 推荐指数:

查看详情

大数据离线分析平台 需求分析(二)

一、数据展示系统(bigdata_dataapi)总述 bigdata_dataapi项目的主要目标有两个:第一个就是我们需要提供一个提供json数据的Rest API;另外一个目标就是提供一个展示结果的demo页面。bigdata_dataapi使用 ...

Wed Apr 17 22:12:00 CST 2019 0 538
大数据 什么是 ETL

ETL 概念 ETL 这个术语来源于数据仓库,ETL 指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL 的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是 BI 项目重要的一个环节。 通常情况下,在 BI 项目中 ETL ...

Thu Jan 21 17:57:00 CST 2021 0 314
关于“用户数据大裸奔”

CSDN用户数据裸奔事件 自CSDN用户数据被裸奔后,裸奔事件陆续有来!俺对此表示淡定,我已经是类似事件的受害人了,那次事件后我修改了很多密码,已经与CSDN上注册帐号密码不一样了。我是CSDN的超级老用户了,10多年前就注册了帐号,我的密码应该是被CSDN明码保存的,管它了,我已经不记得 ...

Wed Oct 16 22:24:00 CST 2013 12 1245
知乎用户数据分析-练习

excel文件无关数据尽量做删除处理)和tableau对数据进行分析。 1、用户性别比例。分别通过mysq ...

Fri Aug 23 01:40:00 CST 2019 1 1693
关于大数据平台ETL可行性方案

今年做过两个公司需求都遇到了实时流入hive的需求,storm入hive有几种可行性方案。 1.storm直接写入hive,storm下面有个stormhive的工具包,可以进行数据写入hive。但是本人研究半天感觉并不是很好用,并且利用工具类也会在开发上灵活性被限制。 2.storm直接写入 ...

Fri Jan 05 08:26:00 CST 2018 0 3572
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM