【文章推荐】【原创】大数据基础之Hadoop（1）HA实现原理

原文：【原创】大数据基础之Hadoop（1）HA实现原理

有些工作只能在一台server上进行，比如master，这时HA High Availability 首先要求部署多个server，其次要求多个server自动选举出一个active状态server，其他server处于standby状态，只有active状态的server允许进行特定的操作当active状态的server由于各种原因无法服务之后比如挂了或者断网，其他standby状态的se ...

2019-01-11 15:25 0 708 推荐指数：

查看详情

【原创】大数据基础之Hadoop（3）yarn数据收集与监控

yarn常用rest api 1 metrics # curl http://localhost:8088/ws/v1/cluster/metrics The cluster metr ...

【大数据】Hadoop的高可用HA

第1章 HA高可用 1.1 HA概述 1）所谓HA（high available），即高可用（7*24小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障（single point of failure，SPOF）。单点故障是一个组件发生故障，就会导致整个系统无法运行。HA严格来说 ...

【原创】大数据基础之Hadoop（3）hdfs diskbalancer

org.apache.hadoop.hdfs.server.diskbalancer.datamodel.DiskBalancerVolumeSet 主要有两个函数， computeV ...

【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现

spark 2.1.1 一启动命令启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.ap ...

【原创】大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

；而take的实现就要复杂一些，它会首先计算1个partition，然后根据结果的数量推断出还需要计 ...

【原创】大数据基础之Spark（5）Shuffle实现原理及代码解析

一简介 Shuffle，简而言之，就是对数据进行重新分区，其中会涉及大量的网络io和磁盘io，为什么需要shuffle，以词频统计reduceByKey过程为例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2 ...

【原创】大数据基础之Spark（8）Spark中Join实现原理

spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions ...

【原创】大数据基础之Impala（2）实现细节

一架构 Impala is a massively-parallel query execution engine, which runs on hundreds of machines in existing Hadoop clusters. It is decoupled from ...

原文：【原创】大数据基础之Hadoop（1）HA实现原理

相关推荐

相关标签