【题外话】 感觉自己很沮丧。我自己认为,我的内心很纯净。 废话说了那么多,我想总结一下最近我学习spark的经验。 最近使用spark做了一个数据分析的项目。 项目采用的基础环境是:spark 1.6.0 hbase 0.98.17 hadoop2.5.2 项目的构建 ...
清理格式不匹配的数据 此代码可以实现自动滤除掉无法转化为double类型的数据 import org.apache.spark.SparkConf import org.apache.spark.api.java.JavaRDD import org.apache.spark.api.java.JavaSparkContext import org.apache.spark.api.java.f ...
2020-04-26 20:09 0 815 推荐指数:
【题外话】 感觉自己很沮丧。我自己认为,我的内心很纯净。 废话说了那么多,我想总结一下最近我学习spark的经验。 最近使用spark做了一个数据分析的项目。 项目采用的基础环境是:spark 1.6.0 hbase 0.98.17 hadoop2.5.2 项目的构建 ...
一、spark SQL:类似于Hive,是一种数据分析引擎 什么是spark SQL? spark SQL只能处理结构化数据 底层依赖RDD,把sql语句转换成一个个RDD,运行在不同的worker上 特点: 1、容易集成:SQL语句 2、对不同的数据源提供统一的访问方式 ...
数据分析的概念 什么是数据分析 就是从现有的数据中挖掘出价值 数据分析应用领域 商品推荐 eg:在淘宝上搜索了一款产品之后,接下来就会疯狂给你推荐相关产品 量化交易 股票,期货等数据分析 短视频推送 抖音,今日头条等短视频 (数据分析 ...
百度搜索大数据,就会发现这是一个日均搜索达到4000K的热词,在头条上也是如此,只增不降。  第三章:Numpy 01 Numpy → B站视频链接(p4-p9) 第四章:Pandas 01 Pandas → B站视频链接 ...
拷贝hive-site.xml到spark的conf目录下面 打开spark的conf目录下的hive-site.xml文件 加上这段配置(我这里三个节点 ...
Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义的对象。 用户可以使用两种方法创建RDD:读取一个外部数据集,或在 ...