标签【大数据基础】

一、前言 Hive默认计算引擎时MR，为了提高计算速度，我们可以改为Tez引擎。至于为什么提高了计算速度，可以参考下图：用Hive直接编写MR程序，假设有四个有依赖关系的MR作业，上图中，绿 ...

大数据基础---流式计算简介

1.流式计算是什么? 流式计算是相对于批处理来说的，我们以前学的Mapreduce就是批处理，它属于离线计算，计算的数据都是过去某个时间点的，还有我们开发的软件管理系统，查询的也是过去某个时刻录入的 ...

1.CDH概述 CDH（Cloudra's Distribution Apache Of Hadoop）是Apache Hadoop和相关项目的最完整，经过测试和最流行的发行版。CDH提供Hadoo ...

大数据基础---Elasticsearch是什么？

Elasticsearch是谁不重要，重要的是咱们都知道百度，谷歌这样的搜索巨头吧。它们的核心技术都利用了Elasticsearch，所以我们有必要对Elasticsearch了解下！ 1.Elas ...

一、简单聚合 1.1 数据准备注：emp.json 可以从本仓库的resources 目录下载。 1.2 count 1.3 countDistinct 1.4 ap ...

大数据基础---Flink开发环境搭建

一、安装 Scala 插件 Flink 分别提供了基于 Java 语言和 Scala 语言的 API ，如果想要使用 Scala 语言来开发 Flink 程序，可以通过在 IDEA 中安装 Scal ...

大数据基础---大数据调优汇总

前言不进行优化的代码就是耍流氓。总体来说大数据优化主要分为三点，一是充分利用CPU，二是节省内存，三是减少网络传输。一、Hive/MapReduce调优 1.1 本地模式 ...

大数据常用基本算法

1、冒泡排序冒泡排序（Bubble Sort），是一种计算机科学领域的较简单的排序算法它重复地走访过要排序的元素列，依次比较两个相邻的元素，如果他们的顺序（如从大到小、首字母从A到Z）错误 ...

大数据基础---HBase预分区方法

（what）什么是预分区？ HBase表在刚刚被创建时，只有1个分区（region），当一个region过大（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB） ...

1.打开虚拟机，对几个节点进行网络连接的设置。虚拟机设置/网络连接，选择“NAT模式” 2.编辑—>虚拟网络编辑器来查看NAT模式中所用到的网段。从上图可以看出，NAT中的子网IP ...