原文:比较全的大数据技术组件整理以及相关理论论文整理

框架 Apache Hadoop:分布式处理架构,结合了 MapReduce 并行处理 YARN 作业调度 和HDFS 分布式文件系统 Tigon:高吞吐量实时流处理框架。 分布式编程 AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统 AMPLab SIMR:用在Hadoop MapReduce v 上运行Spark Apache Beam:为统一的模型以及一套用 ...

2020-07-16 17:34 0 1098 推荐指数:

查看详情

大数据简介,技术体系分类整理

本文源码:GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量 ...

Tue Sep 15 16:56:00 CST 2020 1 1072
大数据框架整理

大数据离线部分 1、HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS ...

Fri Jan 06 20:36:00 CST 2017 0 1854
大数据相关资料论文小结

前言 不知不觉,2020年已经过去一半了,最近突然反应过来自己也看了不少文献资料了,就想着把看过的文献和觉得比较好的书籍做一个总结,基本都是大数据分布式领域的,回顾自己学识的同时,也给想从事或这个领域的小伙伴一些参考 😃。最后顺便把接下来要看的东西列个列表,也会将自己学习的心得和经验分享 ...

Fri Jul 17 03:32:00 CST 2020 0 1113
大数据整理——数据集成

数据集成 1.背景: ​ 因业务需要,事业单位内部普遍构建了多个异构的信息系统,这些信息系统中管理的数据源彼此独立、相互封闭,形成“信息孤岛”无法形成快速有效的共享。 2.定义: ​ 数据集成把一组自治、异构数据源中的数据进行逻辑或物理上的集中,并对外提供统一的访问接口,从而实现全面 ...

Fri Jan 10 18:59:00 CST 2020 0 1837
大数据知识梳理(整理中。。。)

大数据知识梳理(整理中。。。) 一、大数据概述 大数据的特征(4V): 1、Volume,数据量大 2、Variety,数据类型多 大数据由结构化和非结构化数据组成: 10%的结构化数据,存储在数据库中; 90%的非结构化数据,与人类信息密切相关。 3、Velocity,处理速度 ...

Fri Sep 18 16:38:00 CST 2020 0 1229
大数据开发学习路线整理

参考博客:做了五年大数据开发工程师总结的的大数据学习路线 大数据的4V特征: 1. 数据量大,TB->PB 2. 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 3. 商业价值高,但是这种价值需要 ...

Mon Jul 22 01:34:00 CST 2019 0 2221
大数据常见问题整理

讲述HDFS上传文件和读文件的流程 HDFS 上传流程 过程解析:详解这里描述的 是一个256M的文件上传过程 ① 由客户端 向 NameNode节点节点 发出请求②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则③客户端 ...

Mon Dec 03 02:21:00 CST 2018 0 896
大数据面试题整理

1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候 ...

Thu May 02 17:49:00 CST 2019 0 4262
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM