原文:【大数据】SparkSql学习笔记

第 章 Spark SQL概述 . 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了 个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效 ...

2019-02-25 11:55 0 735 推荐指数:

查看详情

6大数据实战系列-sparkSql实战

,并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql,本文先讲解hive、hdf ...

Sun Oct 22 19:42:00 CST 2017 0 1276
大数据】Hive学习笔记

第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 ...

Mon Mar 04 21:54:00 CST 2019 0 752
大数据】Scala学习笔记

第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 3 1.5 Windows下搭建Scala开发环境 ...

Sat Mar 09 01:28:00 CST 2019 0 963
大数据基础---SparkSQL外部数据

一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text ...

Sat Jun 27 00:52:00 CST 2020 0 553
大数据基础---SparkSQL常用聚合函数

一、简单聚合 1.1 数据准备 注:emp.json 可以从本仓库的resources 目录下载。 1.2 count 1.3 countDistinct 1.4 approx_count_distinct 通常在使用大型数据集时,你可能关注的只是近似值而不是准确 ...

Sat Jun 27 01:22:00 CST 2020 0 1699
大数据导论》学习笔记01:大数据概念与应用

一、什么是“大数据”? 大数据是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。 二、大数据的技术支撑? 存储:存储成本 ...

Thu May 09 18:04:00 CST 2019 0 469
大数据原理与技术》学习笔记(一)大数据概述

大数据概述 物联网、云计算和大数据,是第三次信息化浪潮的产物。 技术支撑:存储设备容量的不断增加、CPU处理能力大幅提升、网络带宽不断增加。 数据产生方式:经历了运营式系统、用户原创阶段,进入了感知式系统阶段,物联网技术,可穿戴设备、各种传感器之类的使数据量更大、更密集。 大数据的4V说法 ...

Mon May 27 00:40:00 CST 2019 0 443
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM