【文章推荐】Apache Spark技术实战之1 -- KafkaWordCount

原文：Apache Spark技术实战之1 -- KafkaWordCount

欢迎转载，转载请注明出处，徽沪一郎。概要 Spark应用开发实践性非常强，很多时候可能都会将时间花费在环境的搭建和运行上，如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合，源码中的例子如何真正跑起来，文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount，这个需要涉及Kafka集群的搭建，还是说的越仔细越好。搭建K ...

2014-08-02 21:57 3 9536 推荐指数：

查看详情

Apache Spark技术实战之5 -- SparkR的安装及使用

欢迎转载，转载请注明出处，徽沪一郎。概要根据论坛上的信息，在Sparkrelease计划中，在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR. SparkR的出现解决了R语言中无法级联扩展的难题，同时也极大的丰富了Spark在机器学习 ...

Apache Spark技术实战之9 -- 日志级别修改

摘要在学习使用Spark的过程中，总是想对内部运行过程作深入的了解，其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息，那么如何进行合理设置呢，不复杂但也绝不是将一个INFO换为TRACE那么简单。主要问题调整Spark日志级别的配置文件是$SPARK ...

Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra

欢迎转载，转载请注明出处。概要本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库，这是一个使用spark的综合性示例。前提条件假设已经阅读技术实战之3,并安装了如下软件 jdk scala sbt ...

Apache Spark技术实战之3 -- Spark Cassandra Connector的安装和使用

欢迎转载，转载请注明出处，徽沪一郎。概要前提假设当前已经安装好如下软件 jdk sbt git scala 安装cassandra 以archlinux为例，使 ...

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

除本人同意外，严禁一切转载，徽沪一郎。概要编写了独立运行的Spark Application之后，需要将其提交到Spark Cluster中运行，一般会采用spark-submit来进行应用的提交，在使用spark-submit的过程中，有哪些事情需要注意的呢？本文试就此做一个小小的 ...

Apache Spark技术实战之8：Standalone部署模式下的临时文件清理

未经本人同意严禁转载，徽沪一郎。概要在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件，这些临时目录和文件又是在什么时候被清理，本文将就这些问题做深入细致的解答。从资源使用的方面来看，一个进程运行期间会利用到这四个方面的资源，分别是CPU,内存，磁盘和网络 ...

Apache Spark技术实战之7 -- CassandraRDD高并发数据读取实现剖析

未经本人同意，严禁转载，徽沪一郎。概要本文就 spark-cassandra-connector 的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra 中读取到本地内存或磁盘。数据分区存储在 Cassandra 中数据的一般都会比较多,记录数在千万级别 ...

Apache Storm技术实战之3 -- TridentWordCount

欢迎转载，转载请注明出处。介绍TridentTopology的使用，重点分析newDRPCStream和stateQuery的实现机理。使用TridentTopology进行数据处理的时候， ...

原文：Apache Spark技术实战之1 -- KafkaWordCount

相关推荐

相关标签