本文源码:GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量 ...
框架 Apache Hadoop:分布式处理架构,结合了 MapReduce 并行处理 YARN 作业调度 和HDFS 分布式文件系统 Tigon:高吞吐量实时流处理框架。 分布式编程 AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统 AMPLab SIMR:用在Hadoop MapReduce v 上运行Spark Apache Beam:为统一的模型以及一套用 ...
2020-07-16 17:34 0 1098 推荐指数:
本文源码:GitHub·点这里 || GitEE·点这里 一、大数据简介 1、基础概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量 ...
大数据离线部分 1、HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS ...
前言 不知不觉,2020年已经过去一半了,最近突然反应过来自己也看了不少文献资料了,就想着把看过的文献和觉得比较好的书籍做一个总结,基本都是大数据分布式领域的,回顾自己学识的同时,也给想从事或这个领域的小伙伴一些参考 😃。最后顺便把接下来要看的东西列个列表,也会将自己学习的心得和经验分享 ...
数据集成 1.背景: 因业务需要,事业单位内部普遍构建了多个异构的信息系统,这些信息系统中管理的数据源彼此独立、相互封闭,形成“信息孤岛”无法形成快速有效的共享。 2.定义: 数据集成把一组自治、异构数据源中的数据进行逻辑或物理上的集中,并对外提供统一的访问接口,从而实现全面 ...
大数据知识梳理(整理中。。。) 一、大数据概述 大数据的特征(4V): 1、Volume,数据量大 2、Variety,数据类型多 大数据由结构化和非结构化数据组成: 10%的结构化数据,存储在数据库中; 90%的非结构化数据,与人类信息密切相关。 3、Velocity,处理速度 ...
参考博客:做了五年大数据开发工程师总结的的大数据学习路线 大数据的4V特征: 1. 数据量大,TB->PB 2. 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 3. 商业价值高,但是这种价值需要 ...
讲述HDFS上传文件和读文件的流程 HDFS 上传流程 过程解析:详解这里描述的 是一个256M的文件上传过程 ① 由客户端 向 NameNode节点节点 发出请求②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则③客户端 ...
1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候 ...