原文:Spark Streaming和Flume-NG对接实验

Spark Streaming是一个新的实时计算的利器,而且还在快速的发展。它将输入流切分成一个个的DStream转换为RDD,从而可以使用Spark来处理。它直接支持多种数据源:Kafka, Flume, Twitter, ZeroMQ , TCP sockets等,有一些可以操作的函数:map,reduce,join,window等。 本文将Spark Streaming和Flume NG进 ...

2014-07-24 19:26 2 6222 推荐指数:

查看详情

Flume-NG之KafkaChannel

是速度最快,容易配置;缺点是,可靠性最差,因为一旦flume进程挂了内存中还未出来的数据也就没了;   ...

Mon Mar 02 02:40:00 CST 2015 2 6224
Flume-NG源码阅读之FileChannel

  FileChannel是flume一个非常重要的channel组件,非常常用。这个channel非常复杂,涉及的文件更多涉及三个包:org.apache.flume.channel.file、org.apache.flume.channel.file.encryption(加密 ...

Mon May 19 01:59:00 CST 2014 2 3631
Flume-ng 配置以及简单的例子[转]

一、简单测试配置信息 flume-ng启动agent的命令为: $ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template 添加如下配置文件 ...

Wed Sep 11 21:55:00 CST 2013 0 7963
Flume-ng源码解析之Source组件

如果你还没看过Flume-ng源码解析系列中的启动流程、Channel组件和Sink组件,可以点击下面链接: Flume-ng源码解析之启动流程 Flume-ng源码解析之Channel组件 Flume-ng源码解析之Sink组件 在前面三篇文章中我们初步了解了Flume的启动流程 ...

Sun Mar 12 02:44:00 CST 2017 0 1983
Flume-NG源码阅读之HBaseSink

  关于HBase的sink的所有内容均在org.apache.flume.sink.hbase包下。   每个sink包括自己定制的,都extends AbstractSink implements Configurable。   一、首先是configure(Context context ...

Mon May 05 03:01:00 CST 2014 0 2519
Flume-NG源码阅读之HDFSEventSink

  HDFSEventSink是flume中一个很重要的sink,配置文件中type=hdfs。与此sink相关的类都在org.apache.flume.sink.hdfs包中。   HDFSEventSink算是一个比较复杂的sink,包下涉及的源代码文件数多达13个。。。可配置的参数 ...

Wed May 07 02:32:00 CST 2014 0 3627
flume-ng源码阅读RollingFileSink(原创)

org.apache.flume.sink.RollingFileSink 这个类比较简单。 source的种类有两种:一种是PollableSource;另外一种是EventDrivenSource。前者“必须有它自己的callback机制,该机制用于捕获新数据并将数据存储到通道中 ...

Fri Apr 04 00:02:00 CST 2014 2 2143
Flume-NG源码阅读之Interceptor(原创)

  有的时候希望通过Flume将读取的文件再细分存储,比如讲source的数据按照业务类型分开存储,具体一点比如类似:将source中web、wap、media等的内容分开存储;比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。   flume通过拦截器实现修改和丢弃事件 ...

Tue Apr 15 02:27:00 CST 2014 0 5437
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM