有的时候希望通过Flume将读取的文件再细分存储,比如讲source的数据按照业务类型分开存储,具体一点比如类似:将source中web、wap、media等的内容分开存储;比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。 flume通过拦截器实现修改和丢弃事件 ...
org.apache.flume.sink.RollingFileSink 这个类比较简单。 source的种类有两种:一种是PollableSource 另外一种是EventDrivenSource。前者 必须有它自己的callback机制,该机制用于捕获新数据并将数据存储到通道中 ,后者 不是由其自身的线程驱动 。在自定义source时,前者必须要实现process方法,通过调用这个方法将ev ...
2014-04-03 16:02 2 2143 推荐指数:
有的时候希望通过Flume将读取的文件再细分存储,比如讲source的数据按照业务类型分开存储,具体一点比如类似:将source中web、wap、media等的内容分开存储;比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。 flume通过拦截器实现修改和丢弃事件 ...
org.apache.flume.source.SpoolDirectorySource是flume的一个常用的source,这个源支持从磁盘中某文件夹获取文件数据。不同于其他异步源,这个源能够避免重启或者发送失败后数据丢失。flume可以监控文件夹,当出现新文件时会读取该文件并获取数据 ...
org.apache.flume.channel.MemoryChannel类是Flume-NG的memory-channel。 private LinkedBlockingDeque<Event> queue;//mem-channel存放数据的地方 private ...
关于HBase的sink的所有内容均在org.apache.flume.sink.hbase包下。 每个sink包括自己定制的,都extends AbstractSink implements Configurable。 一、首先是configure(Context context ...
HDFSEventSink是flume中一个很重要的sink,配置文件中type=hdfs。与此sink相关的类都在org.apache.flume.sink.hdfs包中。 HDFSEventSink算是一个比较复杂的sink,包下涉及的源代码文件数多达13个。。。可配置的参数 ...
)、org.apache.flume.channel.file.proto共计40个源码文件。 一、config ...
在AbstractConfigurationProvider类中loadSinks方法会调用loadSinkGroups方法将所有的sink和sinkgroup放到了Map<String, ...
从bin/flume 这个shell脚本可以看到Flume的起始于org.apache.flume.node.Application类,这是flume的main函数所在。 main方法首先会先解析shell命令,如果指定的配置文件不存在就甩出异常。 根据命令中含有 ...