标签【Big Data】 - 码上欢乐

Spark安装与学习

摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器，详情请猛击http://w ...

一，问题描述搭建的用来测试的单节点Kafka集群（Zookeeper和Kafka Broker都在同一台Ubuntu上），在命令行下使用：创建了一个3个分区的Topic如下：（T ...

一，问题描述数据格式： id, timeStamp,count 条件1：查询某个时间段内的数据： timeStamp BETWEEN startTime AND endTime。比如 tim ...

原文链接：[https://jiang-hao.com/articles/2019/big-data-lambda-architecture.html](https://jiang-hao.com/ ...

ElasticSearch的基本原理与用法

一、简介 ElasticSearch和Solr都是基于Lucene的搜索引擎，不过ElasticSearch天生支持分布式，而Solr是4.0版本后的SolrCloud才是分布式版本，Solr的分布 ...

MongoDB 更新数组中的元素

本文记录如何更新MongoDB Collection 中的Array 中的元素。假设Collection中一条记录格式如下：现要删除scores 数组中，"type" 为 "homework ...

Scala

学习路上的新起点：大数据Scala + Spark +（HDFS + HBase），本文主要介绍下Scala的基本语法和用法吧。最后再简单介绍一种Java开发工具IntelliJ IDEA的使用。 ...

Kafka session.timeout.ms heartbeat.interval.ms参数的区别以及对数据存储的一些思考在计算机世界中经常需要与数据打交道，这也是我们戏称CURD工程师的原因 ...

Kafka基本原理

简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提 ...

大数据 - spark-sql 常用命令

--spark启动 --退出 or 1、查看已有的database 2、创建数据库 ...