花费 7 ms
大数据基础---Hive计算引擎Tez简介和使用

一、前言 Hive默认计算引擎时MR,为了提高计算速度,我们可以改为Tez引擎。至于为什么提高了计算速度,可以参考下图: 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿 ...

Sun Jul 19 23:25:00 CST 2020 0 5253
大数据基础---流式计算简介

1.流式计算是什么? 流式计算是相对于批处理来说的,我们以前学的Mapreduce就是批处理,它属于离线计算,计算的数据都是过去某个时间点的,还有我们开发的软件管理系统,查询的也是过去某个时刻录入的 ...

Mon Mar 02 06:42:00 CST 2020 0 2534
大数据基础---Elasticsearch是什么?

Elasticsearch是谁不重要,重要的是咱们都知道百度,谷歌这样的搜索巨头吧。它们的核心技术都利用了Elasticsearch,所以我们有必要对Elasticsearch了解下! 1.Elas ...

Fri Jun 05 04:15:00 CST 2020 0 1787
大数据基础---Flink开发环境搭建

一、安装 Scala 插件 Flink 分别提供了基于 Java 语言和 Scala 语言的 API ,如果想要使用 Scala 语言来开发 Flink 程序,可以通过在 IDEA 中安装 Scal ...

Sun Jun 28 03:39:00 CST 2020 0 1682
大数据基础---大数据调优汇总

前言 不进行优化的代码就是耍流氓。 总体来说大数据优化主要分为三点,一是充分利用CPU,二是节省内存,三是减少网络传输。 一、Hive/MapReduce调优 1.1 本地模式 ...

Thu Jul 16 07:17:00 CST 2020 0 1339
大数据常用基本算法

1、冒泡排序 冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法 它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果他们的顺序(如从大 到小、首字母从A到Z)错误 ...

Sun Feb 24 06:03:00 CST 2019 0 1443
大数据基础---HBase预分区方法

(what)什么是预分区? HBase表在刚刚被创建时,只有1个分区(region),当一个region过大(达到hbase.hregion.max.filesize属性中定义的阈值,默认10GB) ...

Wed Sep 02 19:10:00 CST 2020 0 1007
在虚拟机中设置NAT模式实现主机和虚拟机的通信

1.打开虚拟机,对几个节点进行网络连接的设置。虚拟机设置/网络连接,选择“NAT模式” 2.编辑—>虚拟网络编辑器来查看NAT模式中所用到的网段。 从上图可以看出,NAT中的子网IP ...

Mon Aug 07 00:00:00 CST 2017 1 2364

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM