微信搜索bigdata029 | 邀请体验:数阅–数据管理、OLAP分析与可视化平台 | 订阅本站 | 赞助作者:赞助作者
编程语言

大数据去重统计之BloomFilter

大数据去重统计之BloomFilter
关键字:海量数据去重、BloomFilter 今天尝试了使用Bloom filter对大量数据的去重计数,记录一下。 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%...

1年前 (2015-12-09) 5049℃ 3喜欢

Flume

Flume使用Kafka Sink导致CPU过高的问题

Flume使用Kafka Sink导致CPU过高的问题
关键字:flume、kafka sink、high CPU 在日志收集服务器上使用Flume(1.6)的Kafka Sink将日志数据发送至Kafka,在Flume Agent启动之后,发现每个Agent的CPU使用率都非常高,而我们需要在每台机器上启动多个Flume Agent...

1年前 (2015-12-07) 4623℃ 4喜欢

Kafka

使用Log4j将程序日志实时写入Kafka

使用Log4j将程序日志实时写入Kafka
关键字:log4j、Kafka、KafkaLog4jAppender 很多应用程序使用Log4j记录日志,如何使用Kafka实时的收集与存储这些Log4j产生的日志呢?一种方案是使用其他组件(比如Flume,或者自己开发程序)实时监控这些日志文件,然后发送至Kafka。而另外一种...

1年前 (2015-11-30) 7385℃ 7喜欢

大数据平台

记录一下互联网日志实时收集和实时计算的简单方案

记录一下互联网日志实时收集和实时计算的简单方案
关键字:日志、实时收集、实时计算 作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到H...

1年前 (2015-11-27) 15222℃ 21喜欢

Druid

Druid.io实时OLAP数据分析存储系统介绍

Druid.io实时OLAP数据分析存储系统介绍
关键字:druid,druid.io,olap,realtime 导读: 简介 架构:整体架构、实时节点、历史节点、协调节点、Broker节点、Indexer节点、ZooKeeper Druid vs 其他系统:Druid vs Impala/Shark、Druid vs Ela...

1年前 (2015-11-19) 4976℃ 5喜欢

Druid

查询Druid中的数据

查询Druid中的数据
关键字:druid.io、druid query Druid查询是通过HTTP REST方式发送查询请求,查询的描述写在一个JSON文件中,可以处理查询请求的服务包括Broker、Historical和Realtime,这几个服务节点都提供了相同的查询接口,但一般是将查询请求发送...

1年前 (2015-11-19) 3393℃ 13喜欢

Druid

海量数据实时OLAP分析系统-Druid.io安装配置和体验

海量数据实时OLAP分析系统-Druid.io安装配置和体验
关键字:druid、druid.io、实时olap、大数据实时分析 导读: 一、Druid简介 二、Druid架构组成及相关依赖 三、Druid集群配置 四、Druid集群启动 五、Druid查询 六、后记 一、Druid简介 Druid是一个为大型冷数据集上实时探索查询而设计的...

1年前 (2015-11-17) 13128℃ 17喜欢

Kafka

Kafka主要参数详解

Kafka主要参数详解
关键字:Kafka 参数 系统参数 #唯一标识在集群中的ID,要求是正数。 broker.id=0 #服务端口,默认9092 port=9092 #监听地址 host.name=debugo01 # 处理网络请求的最大线程数 num.network.threads=2 # 处理磁...

2年前 (2015-11-04) 4416℃ 2喜欢

Flume

Flume中的拦截器(Interceptor)介绍与使用(二)

Flume中的拦截器(Interceptor)介绍与使用(二)
关键字:flume、拦截器、interceptor Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常...

2年前 (2015-11-02) 4411℃ 4喜欢

Flume

Flume中的拦截器(Interceptor)介绍与使用(一)

Flume中的拦截器(Interceptor)介绍与使用(一)
关键字:flume、拦截器、interceptor Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常...

2年前 (2015-11-02) 8019℃ 8喜欢

Kafka

Kafka分区机制介绍与示例

Kafka分区机制介绍与示例
关键字:Kafka分区、Partition Kafka中可以将Topic从物理上划分成一个或多个分区(Partition),每个分区在物理上对应一个文件夹,以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有消息(.log)和索引文件...

2年前 (2015-10-30) 10533℃ 22喜欢

Hadoop

Hadoop多用户资源管理–Fair Scheduler介绍与配置

Hadoop多用户资源管理–Fair Scheduler介绍与配置
关键字:Hadoop 多用户、资源、fair scheduler 在一个公司内部的Hadoop Yarn集群,肯定会被多个业务、多个用户同时使用,共享Yarn的资源,如果不做资源的管理与规划,那么整个Yarn的资源很容易被某一个用户提交的Application占满,其它任务只能等...

2年前 (2015-10-26) 9666℃ 9喜欢