一.什么是大数据 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V ...
一 大数据框架: Impala:hadoop的sql平台 支持hbase hdfs 支持超大数据 支持多并发 sql支持好 对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 Spark:各种格式 各种计算 机器学习 图形计算 可sql 可代码处理 支持scala java python语言开发。提供scala python代码命令行运行 超大数据支持差。 Kylin:预计算 好优化 ...
2017-12-29 11:46 0 3179 推荐指数:
一.什么是大数据 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V ...
能产生不可思议的价值。大数据有4个特点,为别为:Volume(大量)、Variety(多样)、Velo ...
1.MySQL数据库 1.1mysql的概念 MySQL是一个关系型数据库管理系统,使用结构化查询语言(SQL)进行数据库管理,sql是最常用的数据库管理语言. 关系型数据库:是指采用了关系模型来组织的数据库.简单说,关系模型指的就是二维表格模型,儿一个关系型数据 ...
大数据离线部分 1、HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存。启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS ...
1、冒泡排序 冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法 它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果他们的顺序(如从大 到小、首字母从A到Z)错误 ...
大数据常用组件 Hadoop Hadoop是干什么用的:https://www.zhihu.com/question/333417513/answer/742465814 Hadoop的特点:https://www.cnblogs.com/chenligeng/p/9313752.html ...