本文想记录和表达的东西挺多的,一时想不到什么好的标题,所以就用上面的关键字作为标题了。
在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...
7年前 (2018-02-22) 65549℃
114喜欢
如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数...
9年前 (2016-06-12) 24185℃
30喜欢
关键字:log4j、Kafka、KafkaLog4jAppender
很多应用程序使用Log4j记录日志,如何使用Kafka实时的收集与存储这些Log4j产生的日志呢?一种方案是使用其他组件(比如Flume,或者自己开发程序)实时监控这些日志文件,然后发送至Kafka。而另外一种...
9年前 (2015-11-30) 33684℃
30喜欢
关键字:日志、实时收集、实时计算
作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到H...
9年前 (2015-11-27) 57303℃
50喜欢
关键字:Kafka 参数
系统参数
#唯一标识在集群中的ID,要求是正数。
broker.id=0
#服务端口,默认9092
port=9092
#监听地址
host.name=debugo01
# 处理网络请求的最大线程数
num.network.threads=2
# 处理磁...
9年前 (2015-11-04) 21801℃
10喜欢
关键字:flume、interceptor、kafka sink、多分区
我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。
前面的文章《...
9年前 (2015-11-02) 25412℃
19喜欢
关键字:Kafka分区、Partition
Kafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有消息(.log)和索引文件...
9年前 (2015-10-30) 62523℃
69喜欢
关键字:Kafka Java API、producer、consumer
前面的文章《Kafka安装配置测试》中安装配置了分布式的Kafka集群,并且使用自带的kafka-console-producer.sh和kafka-console-consumer.sh模拟测试了发送消息...
9年前 (2015-09-24) 26525℃
18喜欢
关键字:Kafka安装、配置、测试
之前转的文章《Kafka架构和原理深度剖析》中介绍了Kafka的原理,本文记录一下其安装配置和测试的过程。
Kafka的整体架构:
本文中的配置:
在两台机器Node1和Node2上,分别部署了两个broker,Zookeeper使用的是单...
9年前 (2015-09-24) 22345℃
29喜欢
关键字:Kafka、Kafka架构、Kafka原理
背景介绍
Kafka简介
Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:
以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能
高吞吐率。即使在非常廉价的...
9年前 (2015-09-24) 40716℃
28喜欢