了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。 Spa ...
HBase简介 HBase 是一个分布式的 面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。 它介于 NoSql 和 RDBMS 之间,仅能通过主键 row key 和主键的 range 来检索数据,仅支持单行事务 可通过 Hive 支持来实现多表 join 等复 ...
2021-01-14 09:36 3 1056 推荐指数:
了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。 Spa ...
一、快速入门 示例:有一定基础的小伙伴们可以选择性的跳过该步骤 HashMap是Java程序员使用频率最高的用于映射键值对(key和value)处理的数据类型。随着JDK版本的跟新,JDK1.8对HashMap底层的实现进行了优化,列入引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7 ...
前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行 ...
RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如 ...
Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apach ...
Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apach ...
前言大家好,我是秃顶的码哥!前几天和同事聊到一个比较尴尬的话题,程序员该如何面对35岁的这道坎?(之所以感到尴尬,是因为码哥也即将35岁了) “高薪”是所有人对于我们程序员的印 ...
这篇文章是很久之前的一篇《回溯算法详解》的进阶版,之前那篇不够清楚,就不必看了,看这篇就行。把框架给你讲清楚,你会发现回溯算法问题都是一个套路。 废话不多说,直接上回溯算法框架。解决一个回溯问题,实际上就是一个决策树的遍历过程。你只需要思考 3 个问题: 1、路径:也就是已经做出的选择 ...