【文章推荐】倾情大奉送--Spark入门实战系列

原文：倾情大奉送--Spark入门实战系列

这一两年Spark技术很火，自己也凑热闹，反复的试验研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介编译部署，再到编程模型运行架构，最后介绍其组件SparkSQL Spark Streaming Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理，随后是实战例子，由于面向的是入门读者 ...

2015-08-03 16:38 67 123225 推荐指数：

查看详情

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、运行环境说明 1.1 硬软件环境 l 主机操作系统：Windows 64位，双核4线程，主频2.2G，10G内存 l 虚拟软件：VMware® Workstation 9.0.0 ...

Spark入门实战系列--4.Spark运行架构

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、 Spark运行架构 1.1 术语定义 lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序 ...

Spark入门实战系列--5.Hive（下）--Hive实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据第一步启动HDFS、YARN和Hive，启动完毕后创建Hive数据库 hive>create database ...

Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况，需要源源不断地接入流数据，为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能 ...

Spark入门实战系列--5.Hive（上）--Hive介绍及部署

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于 ...

Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、Spark编程模型 1.1 术语定义 l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor； l驱动程序 ...

Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、编译Spark Spark可以通过SBT和Maven两种方式进行编译，再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具 ...

Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生 ...

原文：倾情大奉送--Spark入门实战系列

相关推荐

相关标签