使用Flume实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注Source、Channel、Sink之间的消息传输是否正常,比如,SouceàChannel传输了多少消息,ChannelàSink又传输了多少,两处的消息量是否偏差过大等等。
Flume为我们...
7年前 (2018-02-12) 21892℃
35喜欢
时隔一年多,Flume终于发布了1.7版本,该版本中新增了 Taildir Source (Flume中的TaildirSource),另外,对与Kafka的集成上做了很多的改进和优化。
Release Notes – Flume – Version v1...
8年前 (2016-10-19) 11719℃
11喜欢
如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数...
9年前 (2016-06-12) 24183℃
30喜欢
关键字:flume、kafka sink、high CPU
在日志收集服务器上使用Flume(1.6)的Kafka Sink将日志数据发送至Kafka,在Flume Agent启动之后,发现每个Agent的CPU使用率都非常高,而我们需要在每台机器上启动多个Flume Agent...
9年前 (2015-12-07) 21513℃
8喜欢
关键字:日志、实时收集、实时计算
作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到H...
9年前 (2015-11-27) 57300℃
50喜欢
关键字:flume、interceptor、kafka sink、多分区
我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。
前面的文章《...
9年前 (2015-11-02) 25412℃
19喜欢
关键字:flume、拦截器、interceptor
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常...
9年前 (2015-11-02) 19377℃
17喜欢
关键字:flume、拦截器、interceptor
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常...
9年前 (2015-11-02) 40486℃
37喜欢
关键字:flume、hdfs、sink、配置参数
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。
channel
type
hdfs
path
写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/...
9年前 (2015-10-16) 48472℃
65喜欢
关键字:Flume、TaildirSource、TailFile、Source
在通过Flume收集日志的业务场景中,一般都会遇到下面的情况,在日志收集服务器的某个目录下,会按照一段时间生成一个日志文件,并且日志会不断的追加到这个文件中,比如,每小时一个命名规则为log_2015...
9年前 (2015-10-15) 34829℃
22喜欢
软件环境:
flume-ng-core-1.4.0-cdh5.0.0
spark-1.2.0-bin-hadoop2.3
流程说明:
Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来...
10年前 (2015-05-18) 19822℃
14喜欢