标签：kafka

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了。在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为...

7年前 (2018-02-22) 66105℃ 114喜欢

如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events，便会遇到Kafka Topic覆盖问题，具体表现为，Kafka Source可以正常从指定的Topic中读取数据，但在Kafka Sink中配置的目标Topic不起作用，数...

9年前 (2016-06-12) 24299℃ 30喜欢

关键字：log4j、Kafka、KafkaLog4jAppender 很多应用程序使用Log4j记录日志，如何使用Kafka实时的收集与存储这些Log4j产生的日志呢？一种方案是使用其他组件（比如Flume，或者自己开发程序）实时监控这些日志文件，然后发送至Kafka。而另外一种...

10年前 (2015-11-30) 33847℃ 30喜欢

关键字：日志、实时收集、实时计算作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时以上），因此，我们使用Flume将数据收集到H...

10年前 (2015-11-27) 57671℃ 50喜欢

关键字：Kafka 参数系统参数 #唯一标识在集群中的ID，要求是正数。 broker.id=0 #服务端口，默认9092 port=9092 #监听地址 host.name=debugo01 # 处理网络请求的最大线程数 num.network.threads=2 # 处理磁...

10年前 (2015-11-04) 21897℃ 10喜欢

关键字：flume、interceptor、kafka sink、多分区我们目前的业务场景如下：前端的5台日志收集服务器产生网站日志，使用Flume实时收集日志，并将日志发送至Kafka，然后Kafka中的日志一方面可以导入到HDFS，另一方面供实时计算模块使用。前面的文章《...

10年前 (2015-11-02) 25534℃ 19喜欢

关键字：Kafka分区、Partition Kafka中可以将Topic从物理上划分成一个或多个分区（Partition），每个分区在物理上对应一个文件夹，以”topicName_partitionIndex”的命名方式命名，该文件夹下存储这个分区的所有消息(.log)和索引文件...

10年前 (2015-10-30) 62739℃ 69喜欢

关键字：Kafka Java API、producer、consumer 前面的文章《Kafka安装配置测试》中安装配置了分布式的Kafka集群，并且使用自带的kafka-console-producer.sh和kafka-console-consumer.sh模拟测试了发送消息...

10年前 (2015-09-24) 26707℃ 18喜欢

关键字：Kafka安装、配置、测试之前转的文章《Kafka架构和原理深度剖析》中介绍了Kafka的原理，本文记录一下其安装配置和测试的过程。 Kafka的整体架构：本文中的配置：在两台机器Node1和Node2上，分别部署了两个broker，Zookeeper使用的是单...

10年前 (2015-09-24) 22433℃ 29喜欢

关键字：Kafka、Kafka架构、Kafka原理背景介绍 Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，并保证即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的...

10年前 (2015-09-24) 40879℃ 28喜欢