flume – lxw的大数据田地

Flume的监控（Monitor)

使用Flume实时收集日志的过程中，尽管有事务机制保证数据不丢失，但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常，比如，SouceàChannel传输了多少消息，ChannelàSink又传输了多少，两处的消息量是否偏差过大等等。 Flume为我们...

7年前 (2018-02-12) 22069℃ 35喜欢

Flume

Apache Flume 1.7发布

时隔一年多，Flume终于发布了1.7版本，该版本中新增了 Taildir Source （Flume中的TaildirSource），另外，对与Kafka的集成上做了很多的改进和优化。 Release Notes – Flume – Version v1...

9年前 (2016-10-19) 11837℃ 11喜欢

Flume

Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题

如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events，便会遇到Kafka Topic覆盖问题，具体表现为，Kafka Source可以正常从指定的Topic中读取数据，但在Kafka Sink中配置的目标Topic不起作用，数...

9年前 (2016-06-12) 24299℃ 30喜欢

Flume

Flume使用Kafka Sink导致CPU过高的问题

关键字：flume、kafka sink、high CPU 在日志收集服务器上使用Flume（1.6）的Kafka Sink将日志数据发送至Kafka，在Flume Agent启动之后，发现每个Agent的CPU使用率都非常高，而我们需要在每台机器上启动多个Flume Agent...

10年前 (2015-12-07) 21688℃ 8喜欢

大数据平台

记录一下互联网日志实时收集和实时计算的简单方案

关键字：日志、实时收集、实时计算作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时以上），因此，我们使用Flume将数据收集到H...

10年前 (2015-11-27) 57671℃ 50喜欢

Flume

利用Flume拦截器（interceptors）实现Kafka Sink的自定义规则多分区写入

关键字：flume、interceptor、kafka sink、多分区我们目前的业务场景如下：前端的5台日志收集服务器产生网站日志，使用Flume实时收集日志，并将日志发送至Kafka，然后Kafka中的日志一方面可以导入到HDFS，另一方面供实时计算模块使用。前面的文章《...

10年前 (2015-11-02) 25534℃ 19喜欢

Flume

Flume中的拦截器（Interceptor）介绍与使用（二）

关键字：flume、拦截器、interceptor Flume中的拦截器（interceptor），用户Source读取events发送到Sink的时候，在events header中加入一些有用的信息，或者对events的内容进行过滤，完成初步的数据清洗。这在实际业务场景中非常...

10年前 (2015-11-02) 19499℃ 17喜欢

Flume

Flume中的拦截器（Interceptor）介绍与使用（一）

关键字：flume、拦截器、interceptor Flume中的拦截器（interceptor），用户Source读取events发送到Sink的时候，在events header中加入一些有用的信息，或者对events的内容进行过滤，完成初步的数据清洗。这在实际业务场景中非常...

10年前 (2015-11-02) 40618℃ 37喜欢

Flume

Flume中的HDFS Sink配置参数说明

关键字：flume、hdfs、sink、配置参数 Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。 channel type hdfs path 写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/...

10年前 (2015-10-16) 48599℃ 65喜欢

Flume

Flume中的TaildirSource

关键字：Flume、TaildirSource、TailFile、Source 在通过Flume收集日志的业务场景中，一般都会遇到下面的情况，在日志收集服务器的某个目录下，会按照一段时间生成一个日志文件，并且日志会不断的追加到这个文件中，比如，每小时一个命名规则为log_2015...

10年前 (2015-10-15) 35097℃ 22喜欢

Spark

Spark Streaming+Flume对接实验

软件环境： flume-ng-core-1.4.0-cdh5.0.0 spark-1.2.0-bin-hadoop2.3 流程说明： Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件，启动一个avro source，用来...

10年前 (2015-05-18) 19985℃ 14喜欢

lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java

标签：flume

Flume的监控（Monitor)

Apache Flume 1.7发布

Flume中同时使用Kafka Source和Kafka Sink的Topic覆盖问题

Flume使用Kafka Sink导致CPU过高的问题

记录一下互联网日志实时收集和实时计算的简单方案

利用Flume拦截器（interceptors）实现Kafka Sink的自定义规则多分区写入

Flume中的拦截器（Interceptor）介绍与使用（二）

Flume中的拦截器（Interceptor）介绍与使用（一）

Flume中的HDFS Sink配置参数说明

Flume中的TaildirSource

Spark Streaming+Flume对接实验