标签【大数据处理】

Storm介绍(一)

作者:Jack47 PS：如果喜欢我写的文章，欢迎关注我的微信公众账号程序员杰克，两边的文章会同步，也可以添加我的RSS订阅源。内容简介# 本文是Storm系列之一，介绍了Storm的起源，S ...

zookeeper部署及集群测试

zookeeper部署及集群测试环境三台测试机操作系统: centos7 ; hostname: c1 ; ip: 192.168.1.80 操作系统: centos7 ...

数据挖掘工程师笔试及答案整理

2013百度校园招聘数据挖掘工程师一、简答题（30分） 1、简述数据库操作的步骤（10分）步骤：建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。 ...

使用 Apache Atlas 进行数据治理

本文由网易云发布。作者：网易/刘勋（本篇文章仅限知乎内部分享，如需转载，请取得作者同意授权。）面对海量且持续增加的各式各样的数据对象，你是否有信心知道哪些数据从哪里来以及它如 ...

Flink架构、原理与部署测试

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作 ...

高性能分布式执行框架——Ray

Ray是UC Berkeley RISELab新推出的高性能分布式执行框架，它使用了和传统分布式计算系统不一样的架构和对分布式计算的抽象方式，具有比Spark更优异的计算性能。 Ray目前还处于实验 ...

Spark中map与flatMap

map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回 map函数的源码： map将每一条输入执行func操作并对应返回一个对象，形成一个新的rdd， ...

Spring Secutity和Apache Shiro是Java领域的两大主流开源安全框架，也是权限系统设计的主要技术选型。本文主要介绍Spring Secutity的实现原理，并基于Spring ...

Spark-SQL连接Hive

第一步：修个Hive的配置文件hive-site.xml 　　添加如下属性，取消本地元数据服务：　　修改Hive元数据服务地址和端口：　　然后把配置文件hive- ...

SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等，通过load这些数据可以对其做一系列计算下面通过程序代 ...